4

我需要刮掉大約5000個有相關信息的網站。所以數據將以某種方式被構造,如item_id, name, description, date ....我正在尋找刮大量的網站和搜索所有這些,我應該使用什麼系統?

在頁面上找到的額外信息仍應該可搜索。

我的想法是,我不需要關係數據庫,我不需要進行邏輯查詢,我只需要使用給定的關鍵字搜索數據。因此,有人可以輸入"green yellow",它將搜索所有包含這兩個單詞的項目。考慮到這些項目可能會達到數百萬,我想知道哪種技術最適合用於此,有希望擴展或者雲上有解決方案?

對於抓取我在考慮Node.js,因爲我可以將它與完美服務於DOM和HTML結構的jQuery綁定。對於存儲我仍然有點失落,但我有一些Lucene的經驗,所以我可以直接在Lucene中存儲刮取的數據。

你覺得呢?任何人做出這樣的建議已經很棒了!謝謝。

回答

0

Solr是絕對完美的完成這個任務

+0

怎麼樣的刮削部?任何好的Java工具? – 2011-06-01 08:19:52

+0

如果你試圖留在Apache工具中,[Nutch](http://nutch.apache.org/)可能是一條可行的路。我發現了一個Nutch/Solr集成問題[在SO](http://stackoverflow.com/questions/211411/using-nutch-crawler-with-solr)。 Heritrix也是一個很好的爬蟲,但也許不那麼靈活。我發現這個鏈接[再次] [(http://stackoverflow.com/questions/282654/recommendations-for-a-spidering-tool-to-use-with-lucene-or-solr)應該回答你的問題 – Grooveek 2011-06-01 08:25:11