我已成功配置Hadoop(2.x),Hbase和Nutch 2.3.1。我也爬了幾個樣本頁面進行測試。現在我必須使用開源工具cld2專門針對特定語言進行抓取。如果被抓取的文檔不包含該特定語言,那麼不應該保存該文檔(在Hbase中),也不應該索引到Solr。在Nutch WIKI中,在提取時間處沒有擴展點。有沒有其他可行的方法來完成這項工作?Apache Nutch 2.3.1擴展點在獲取時間
0
A
回答
0
目前Nutch提供的fetchers實現中沒有擴展點。如果你仔細想想,你需要獲取和解析文檔(以提取語言),然後你可以編寫自己的IndexingFilter
以檢查文檔的語言,並決定是否索引它。
這應該不是很難自己寫。另一方面,對於Nutch 1.x,我們已經有了這個PR https://github.com/apache/nutch/pull/219,它可以很容易地移植到2.x上,然後你只需要正確的JEXL表達式。
我們已經有了Nutch 2.x附帶的language-identifier
插件,您可以看看如何實現並將您自己的與cld2的集成添加爲不同的插件。如果你想使用cld2,那麼你需要編寫一些解析器(以及索引器)來檢測內容中的語言。
相關問題
- 1. Apache Nutch 2.3.1讀取錯誤
- 2. 在Apache Nutch 2.3.1中選取的外部URL獲取
- 3. Apache Nutch 2.3.1遠程命令失敗
- 4. Apache Nutch 2.3.1插件不工作
- 5. Nutch 2.3.1僅抓取種子URL
- 6. Solr 6和Nutch 2.3.1集成
- 7. apache nutch不抓取網站
- 8. 獲取父擴展在PHP
- 9. Apache Nutch步驟說明
- 10. ActiveMQ與Apache Karaf 2.3.1
- 11. apache nutch在生成階段需要很長的時間
- 12. 按鈕獲取擴展時使用flexbox
- 13. Firefox擴展:獲取點擊數據時上下文菜單
- 14. 獲取Youtube Video for Chrome擴展程序的持續時間
- 15. Apache的Nutch的津貼
- 16. Windows上的Apache Nutch
- 17. 從文件獲取擴展
- 18. Apache nutch不再爬行
- 19. 如何讓apache nutch永久爬取
- 20. 如何讓Apache Nutch的抓取永遠
- 21. Apache Nutch重新啓動抓取
- 22. Nutch的2.3.1和Solr 6錯誤,而索引
- 23. 如何在MSBuild中獲取擴展名(不帶點)
- 24. 在樹狀視圖中獲取擴展節點
- 25. 按鈕在點擊時擴展大小
- 26. 如何在點擊時擴展UIWebView
- 27. 我該如何使用Apache Spark和Apache Nutch
- 28. 在上傳器中獲取擴展名
- 29. GTK擴展一個在一個時間
- 30. 用Apache Pig擴展數組
謝謝兄弟。我在索引時間已經實現了語言過濾器。我的問題是,我不得不從Solr(索引)中刪除不包含來自Hbase表(其中原始內容由Nutch在提取時間存儲的文件)的Urdu語言的文檔, – Shafiq