我是Apache Nutch的新手,我想從mysql數據庫動態注入URL。 Apache Nutch是否提供這種可能性?如果沒有,是否有我可以學習的類似實驗?或者有什麼建議?注入網址到Apache Nutch從MySQL而不是seed.txt
2
A
回答
1
Nutch 1.x =>不開箱即用。你必須修改Injector代碼,以便從MySQL讀取,但這當然是可行的。我很早以前就爲一個客戶做過這件事。
另外,你可以使用StormCrawler,它有一個MySQL模塊,應該沒有額外的工作來讓它工作。我們博客上的Cloudsearch tutorial顯示瞭如何在SC上使用MySQL。
Nutch 2.x使用GORA作爲中間層,IIRC有一個SQL插件。不確定其狀態以及這是否合適。
3
由於Julien說你應該修改INJECTOR代碼來實現這一點。不過,我可以爲此提出解決方法。您可以使用命令bin/nutch startserver在服務器模式下使用NUTCH,然後從數據庫加載您的種子URL。然後,您可以使用Nutch REST API使用從數據庫加載的URL創建種子列表,並將創建的種子文件指向INJECT作業創建服務調用。
你可以找到關於此REST API的詳細信息: -
http://nutch.apache.org/miredot/1.12/index.html#1153761698 或 https://docs.google.com/document/d/1OGg22ATohapP2ycewIaTcUnENc2FeyYzni0ED_Jjxz8/edit https://wiki.apache.org/nutch/NutchRESTAPI
相關問題
- 1. 除了我使用Apache Nutch的1.12,我試圖抓取的網址在seed.txt
- 2. 索引網址使用nutch注入網址內容
- 3. bin/nutch注入抓取/ crawldb網址不起作用
- 4. apache nutch不抓取網站
- 5. 如何或在哪裏運行$ ./nutch注入抓取/ crawldb網址
- 6. 如何注入在爬到nutch種子列表中發現的網址
- 7. xmlhttp從變量,而不是網址 - javascript
- 8. 將Apache Tika應用於Solr而不是Nutch有什麼好處
- 9. 什麼是插入+進入網址,而不是例如空間
- 10. PHP get_headers不是本地的Apache網址
- 11. Apache nutch不再爬行
- 12. 網址是&,而不是搜索引擎處理的網址?
- 13. 從FB Connected網站註銷而不是從主FB網站註銷
- 14. Apache Nutch 2.3:不會注入URL(掛起)&hadoop日誌顯示警告
- 15. file_get_contents使用直接輸入的網址,而不是自動獲得的網址
- 16. MySQL的內容載入網址到表
- 17. 將圖像從網址(而不是數據庫)加載到網站上
- 18. nutch crawler相關網址問題
- 19. 網址注入問題與PHP網站
- 20. Joomla網站顯示IP地址,而不是網址
- 21. Windows上的Apache Nutch
- 22. Lighttpd而不是Apache
- 23. 閱讀Nutch從MySQL中檢索數據
- 24. 轉到錨點而不更改網址
- 25. Mysql存儲網址(不是http)
- 26. Nutch:在Java中調用,而不是命令行?
- 27. Apache Nutch不索引整個網站,只有子文件夾
- 28. 通過網址將JavaScript注入頁面
- 29. 從蟒蛇插入MAC地址到mysql
- 30. Apache網址重寫QUERY_STRING
朱利安您好,感謝您的回答。我只對Nutch感興趣。是的,在Gora支持apache nutch 2.3.1中有一個mysql插件,但我認爲它僅用於存儲數據而不用於URL輸入。我不確定當我取消註釋mysql和mongodb時(如果我只想將結果保存在mongodb中)會發生什麼情況。 – Sparkan
取消註釋可能會導致一個可愛的混亂我猜;-)。如果我是你,我會堅持使用Nutch 1.x(更好的性能,更少的配置等),並編寫一個定製的Injector。無論如何,你必須對Nutch2.x進行同樣的處理,除非你使用與GORA相同的序列化來處理你的種子,這可能不是你想要的。 –