2009-09-19 91 views
1

我是Nutch的新手,但我知道Nutch使用Lucene進行索引,只能理解文本格式。Nutch的插件系統如何工作?

Nutch有很多插件用於抓取特定格式的文檔。

我的疑問是:Nutch插件系統實際上怎麼樣?

我看到了nutch

團隊wiki頁面,我想喜歡的Nutch的實際工作原理與Lucene的一些信息。

回答

1

所有Lucene的確實是提供了「Documents」的方式來加入到結構化索引和查詢針對索引執行。

的爬蟲Nutch的(我認爲這是你的Nutch的意思)只是提供了一種簡單的方式來獲得非結構化數據(即網站)將被推入索引。就像您可以使用Solr輕鬆地將xml數據推送到lucene索引中一樣。

Nutch插件只是提供一個鉤子,你可以把客戶邏輯。例如,「parse-pdf」可以將二進制PDF文件轉換爲這些「lucene文檔」之一。基本上它只是使用可以讀取PDF文檔(pdfbox)來提取文本的API(這與「parse-html」的作用類似,因爲html有很多不是文本的部分,例如所有的html標籤)。

所以關於你對二進制格式的關注,它不難解析,只是很難得到有用的東西。例如,我們可以編寫一個「解析圖像」插件,它可以提取關於圖像的很多信息(例如名稱,格式,大小),這只是解析圖片中的「臉部」或「狗」很困難。