2012-07-05 54 views
1

我被困在需要抓取具有表單帖子的網站的地步。 Nutch不支持這個。 如何解決此問題,以便我可以使用Nutch抓取這些網站?有更好的解決方案嗎?Nutch和Http POST驗證?

回答

1
  1. 使數據文件:的正則表達式需要身份驗證/ URL網址,提交表單/表單數據
  2. 使自己的http協議插件修改標準協議HttpClient的插件。如果發送http請求的URL需要auth,並且沒有auth,那就去形成併發送它。

這是最簡單的解決方案。問題是,大數量的網站沒有一個簡單的解決方案。在登錄期間有cookie過期/使用Javascript等問題。通過Nutch的JIRA搜索,有很多關於這方面的討論。