Nutch的自定義分析器（或開源.NET Crawler）

我一直在使用Nutch/Solr/SolrNet作爲我的搜索解決方案，我必須說，它的工作原理是一種享受。在我正在處理的新網站上，我使用了母版頁，因此頁眉和頁腳中的內容正在索引並扭曲了結果。例如，我有一個鏈接到標題中的聯繫我們頁面。現在，當我搜索「聯繫人」時，結果會返回網站中的所有網頁。Nutch的自定義分析器（或開源.NET Crawler）

是否有一個可定製的Nutch解析器，我可以傳遞一個div id，然後它只索引div內的內容。

或者如果有我可以自定義的基於.NET的抓取工具。

來源

2011-05-24 robasta

我找到了[NCrawler]（http://ncrawler.codeplex.com/），一個.net抓取工具。有4 * 5星評論，看起來很有希望。 – robasta 2011-05-24 07:57:32

見https://issues.apache.org/jira/browse/NUTCH-585 和https://issues.apache.org/jira/browse/NUTCH-961

BTW你會被髮布到Nutch的用戶列表

來源

2011-05-25 15:18:46

感謝您的鏈接，他們會讓我繼續關注Nutch。我也決定使用NCrawler（.NET）來處理一些特定的情況，主要是因爲我使用了C＃。 – robasta 2011-05-27 08:23:17

您可以實現Nutch的過濾器（我喜歡Jericho HTML Parser）只提取的部分獲得更多相關受衆您需要使用DOM操作進行索引的頁面。您可以使用TextExtractor類來獲取乾淨的文本（無法使用HTML標記）以用於索引。我通常將這些數據保存在自定義字段中。

來源

2011-06-30 23:43:19 Claude

Nutch的自定義分析器（或開源.NET Crawler）

回答

相關問題