我被困在需要抓取具有表單帖子的網站的地步。 Nutch不支持這個。 如何解決此問題,以便我可以使用Nutch抓取這些網站?有更好的解決方案嗎?Nutch和Http POST驗證?
1
A
回答
1
- 使數據文件:的正則表達式需要身份驗證/ URL網址,提交表單/表單數據
- 使自己的http協議插件修改標準協議HttpClient的插件。如果發送http請求的URL需要auth,並且沒有auth,那就去形成併發送它。
這是最簡單的解決方案。問題是,大數量的網站沒有一個簡單的解決方案。在登錄期間有cookie過期/使用Javascript等問題。通過Nutch的JIRA搜索,有很多關於這方面的討論。
-1
這裏是你們要找的答案:
和
https://issues.apache.org/jira/browse/NUTCH-827
這兩個環節都有完整和示例代碼。如果您正確執行每一步,那麼您將能夠在Nutch中實現基於表單的身份驗證。
相關問題
- 1. Swift HTTP POST登錄驗證
- 2. HTTP驗證和Flex
- 3. PowerShell的HTTP POST REST API基本驗證
- 4. 可可HTTP POST方法驗證
- 5. NodeJS API HTTP POST請求身份驗證
- 6. PHP PayPal付款驗證/ HTTP POST?
- 7. ViewModel POST和DomainModel驗證
- 8. HTTP POST和GET使用Cookie進行身份驗證在Python中
- 9. MVC4 - 通過http POST和FormsAuthentication進行Android身份驗證
- 10. Authlogic和HTTP摘要驗證
- 11. Web蜘蛛和HTTP驗證
- 12. LDAP HTTP驗證和3.1
- 13. 與ip和http jQuery驗證
- 14. jQuery驗證.post
- 15. 自動驗證HTTP驗證
- 16. 如何使用Almofire發送http post請求與http頭和驗證?
- 17. post box/bin驗證
- 18. akka http SSLConfig與主機名驗證和證書驗證問題
- 19. 驗證碼GET/POST
- 20. HTTP post和wininet
- 21. SOAP和HTTP Post
- 22. Jquery post和html表單驗證
- 23. 跨域Ajax POST和用戶驗證
- 24. 複雜的表單POST和驗證
- 25. PHP表單驗證和POST變量
- 26. http驗證在Xcode
- 27. NTLMv2 HTTP驗證Java
- 28. HTTP基本驗證
- 29. libcurl http驗證碼
- 30. 通過驗證的代理和驗證的http資源捲曲