Nutch的插件系統如何工作？

我是Nutch的新手，但我知道Nutch使用Lucene進行索引，只能理解文本格式。Nutch的插件系統如何工作？

Nutch有很多插件用於抓取特定格式的文檔。

我的疑問是：Nutch插件系統實際上怎麼樣？

我看到了nutch

團隊wiki頁面，我想喜歡的Nutch的實際工作原理與Lucene的一些信息。

來源

2009-09-19 vipin k.

所有Lucene的確實是提供了「Documents」的方式來加入到結構化索引和查詢針對索引執行。

的爬蟲Nutch的（我認爲這是你的Nutch的意思）只是提供了一種簡單的方式來獲得非結構化數據（即網站）將被推入索引。就像您可以使用Solr輕鬆地將xml數據推送到lucene索引中一樣。

Nutch插件只是提供一個鉤子，你可以把客戶邏輯。例如，「parse-pdf」可以將二進制PDF文件轉換爲這些「lucene文檔」之一。基本上它只是使用可以讀取PDF文檔（pdfbox）來提取文本的API（這與「parse-html」的作用類似，因爲html有很多不是文本的部分，例如所有的html標籤）。

所以關於你對二進制格式的關注，它不難解析，只是很難得到有用的東西。例如，我們可以編寫一個「解析圖像」插件，它可以提取關於圖像的很多信息（例如名稱，格式，大小），這只是解析圖片中的「臉部」或「狗」很困難。

來源

2010-11-11 01:03:29 mlathe

Nutch的插件系統如何工作？

回答

相關問題