我在我的urls/seed文件中有兩個網址。我的抓取工具在開始抓取前花費太多時間。我已檢索的數據大約爲220 GB。任何想法爲什麼nutch的行爲是這樣的apache nutch在生成階段需要很長的時間
1
A
回答
1
在獲取作業之前,生成作業在Nutch中執行。在生成作業中,Nutch將選擇CrawlDB中所有URL中得分最高的topN URL,以便獲取。因此,抓取工具在抓取之前需要很長時間的原因是您設置的topN與系統容量相比過高,並且抓取數據庫中的URL數量很大(選擇過程需要一定的時間)。
希望這有助於
李全安待辦事項
相關問題
- 1. Fortify在「生成中間文件」時需要很長時間
- 2. NSHost需要很長時間
- 3. presentRenderbuffer:GL_RENDERBUFFER_OES需要很長時間
- 4. HTTPURLConnection.getInputStream()需要很長時間?
- 5. Bouncy Castle需要很長時間才能生成RSA密鑰對
- 6. 索引在Xcode需要很長時間
- 7. 需要很長時間的SQL查詢
- 8. MongoDB需要很長時間來查詢
- 9. AVAssetExportSession導出需要很長時間
- 10. 解釋計劃需要很長時間
- 11. 檢查代碼需要很長時間
- 12. java.util.concurrent.ExecutorService#提交需要很長時間
- 13. Hiearchical Join需要很長時間
- 14. 返回需要很長時間
- 15. sqlite插入需要很長時間
- 16. 從sessionStorage服務需要很長時間
- 17. 線程仍然需要很長時間
- 18. hood.ie開始需要很長時間
- 19. Perl Parallel :: ForkManager wait_all_children()需要很長時間
- 20. 大TChart需要很長時間繪製
- 21. ByteBuffer allocateDirect需要很長時間
- 22. 重複查詢需要很長時間
- 23. 爲什麼IIS7需要很長時間
- 24. Excel轉儲需要很長時間
- 25. Informix DELETE查詢需要很長時間
- 26. `react-native start`需要很長時間
- 27. SqlDataAdapter.Fill突然需要很長時間
- 28. NSManagedContext需要很長時間來堅持
- 29. Android的SQLite的需要很長時間才能完成
- 30. Jenkins:當構建需要很長時間時生成電子郵件
您可以限制網址的使用-depth抓取的數量和-topN參數 – 2014-11-07 12:36:11