2011-05-24 54 views
0

我一直在使用Nutch/Solr/SolrNet作爲我的搜索解決方案,我必須說,它的工作原理是一種享受。在我正在處理的新網站上,我使用了母版頁,因此頁眉和頁腳中的內容正在索引並扭曲了結果。例如,我有一個鏈接到標題中的聯繫我們頁面。現在,當我搜索「聯繫人」時,結果會返回網站中的所有網頁。Nutch的自定義分析器(或開源.NET Crawler)

是否有一個可定製的Nutch解析器,我可以傳遞一個div id,然後它只索引div內的內容。

或者如果有我可以自定義的基於.NET的抓取工具。

+0

我找到了[NCrawler](http://ncrawler.codeplex.com/),一個.net抓取工具。有4 * 5星評論,看起來很有希望。 – robasta 2011-05-24 07:57:32

回答

1

您可以實現Nutch的過濾器(我喜歡Jericho HTML Parser)只提取的部分獲得更多相關受衆您需要使用DOM操作進行索引的頁面。您可以使用TextExtractor類來獲取乾淨的文本(無法使用HTML標記)以用於索引。我通常將這些數據保存在自定義字段中。