2010-11-11 39 views
0

我有一個網站,這是相當不錯的,但信息很少。 所以我覺得像添加關於特定領域的新聞(例如政治,好萊塢等)的消息。我相信爬蟲是最好的方法嗎?我的理解是否正確,請建議您是否有其他方式獲取信息,而不使用各種來源的抓取工具。建議與最好的可定製履帶和鏟運機

其次,我從過去的2天開始進行研究,但找不到能夠做到的特定源代碼。現在我想爬蟲找到信息,規範化並存儲在mysql數據庫中。聽起來很簡單哈。但它不適合我。

由於這是非常資源和耗時的。在選擇抓取工具之前,我應該考慮哪些因素。我也想定製它,所以任何開源並且很好定製的工具都會很棒。

任何提供有關因素的信息和研究的來源都需要考慮,同時創建爬蟲或教育爬蟲將會很好。 我更喜歡用java編碼,但如果您覺得自己有某種語言,我可以使用任何其他語言編寫代碼。 我希望我已經提供了足夠的信息。請不要猶豫,如果你需要更多的信息給予建議。

回答

0

您可以使用httrack複製目標網站。有一個名爲spiderzilla的firefox插件。但是,他們只會保存這些頁面。

如果你想解析頁面中的數據,那麼你可以使用simple_html_dom並將信息存儲在mySQL中。

0

嘗試使用GNU Wget工具。您可以爲其抓取方式添加大量智能,並創建網頁數據轉儲。它也是開源的和可定製的,而且速度也非常快。