0

我做了很多網絡抓取,並且對於每個項目,我發現自己正在重寫一種框架/後端,它涉及將原始頁面/文件保存到名稱空間目錄中,有時甚至是數據庫以跟蹤日期,錯誤消息等是否存在處理數據存檔和存儲的數據抓取框架?

我想知道是否有這樣的框架已經爲此類任務而構建。我並不是指實際的抓取任務本身,它是使用Nokogiri/Mechanize /等HTML解析器的組合,但是用於管理刮板和他們收集的數據。對於我所做的一些任務,數據收集有幾個階段。

例如:

  1. 迭代通過網站,下載
  2. 原始頁面解析存儲的原始頁面,提取數據
  3. 清潔數據(這可以涉及到可能是不可能的其他外部進程在階段2)

因此,任何系統,可以幫助我跟蹤刮泥機何時開始,他們如何做,以及他們在哪裏保存原始數據是偉大的。我想用MongoDB編寫我自己的東西,但我確信有人比我做得更好。

+0

請注意,數據挖掘是分析,而不是數據收集。 – 2012-08-12 14:58:50

+0

Nutch將其數據存儲在Solr中,如果有幫助... – 2012-08-14 18:48:42

回答

0

我知道irobotsoft刮刀解決了所有這些問題。它有很多功能來清理html頁面和存儲數據,內置的排序和數據庫操作內置在一個簡單的用戶界面中。

此外,它是免費的。