Q

我正在尋找刮大量的網站和搜索所有這些，我應該使用什麼系統？

2011-06-01 38 views 4 likes

4

我需要刮掉大約5000個有相關信息的網站。所以數據將以某種方式被構造，如item_id, name, description, date ....。我正在尋找刮大量的網站和搜索所有這些，我應該使用什麼系統？

在頁面上找到的額外信息仍應該可搜索。

我的想法是，我不需要關係數據庫，我不需要進行邏輯查詢，我只需要使用給定的關鍵字搜索數據。因此，有人可以輸入"green yellow"，它將搜索所有包含這兩個單詞的項目。考慮到這些項目可能會達到數百萬，我想知道哪種技術最適合用於此，有希望擴展或者雲上有解決方案？

對於抓取我在考慮Node.js，因爲我可以將它與完美服務於DOM和HTML結構的jQuery綁定。對於存儲我仍然有點失落，但我有一些Lucene的經驗，所以我可以直接在Lucene中存儲刮取的數據。

你覺得呢？任何人做出這樣的建議已經很棒了！謝謝。

2011-06-01 Luca Matteis

A

回答

2

在基於網絡爬蟲節點而言，檢查這些鏈接了：

http://www.coderholic.com/scraping-the-web-with-node-io/

https://github.com/mikeal/spider

https://github.com/creationix/scraperdemo

2011-09-15 16:47:00 mt3

0

Solr是絕對完美的完成這個任務

2011-06-01 08:01:57 Grooveek

+0

怎麼樣的刮削部？任何好的Java工具？ – 2011-06-01 08:19:52

+0

如果你試圖留在Apache工具中，[Nutch]（http://nutch.apache.org/）可能是一條可行的路。我發現了一個Nutch/Solr集成問題[在SO]（http://stackoverflow.com/questions/211411/using-nutch-crawler-with-solr）。 Heritrix也是一個很好的爬蟲，但也許不那麼靈活。我發現這個鏈接[再次] [（http://stackoverflow.com/questions/282654/recommendations-for-a-spidering-tool-to-use-with-lucene-or-solr）應該回答你的問題 – Grooveek 2011-06-01 08:25:11

1

Nutch的實際上是爲這個完美的。它包含Lucene/Solr作爲其搜索引擎組件。

另外看看Lucidworks的企業級Solr，它有一個內置的網絡爬蟲和一個相當整潔的GUI。

http://www.lucidimagination.com/products/lucidworks-search-platform/enterprise

2011-09-15 16:43:28 mt3