2009-04-19 90 views
0

我知道cURL會下載一個完整的文件。網頁抓取和鏈接評估

我真正想要的是採取頁面上的所有鏈接,並根據我的具體標準,鏈接的位置等進行評估,並決定是否應該抓取該頁面並解析它以獲取信息。

更具體地說,我想查找與娛樂事件有關的鏈接,並解析數據並將其存儲在我的MySQL數據庫中,以填充我所在地區的事件的網站。

有沒有人有想法如何完成?

-Jason

回答

2

我建議你的基礎在現有的網絡爬蟲/索引解決方案的努力,而不是代碼或工具,如捲曲實現它自己。例如,

參見Lucene

+0

如何在GoDaddy上將這部署到共享服務器上? – Toddly 2009-04-19 15:42:33

0

如果你想要的只是一個頁面上的鏈接的枚舉,你可以使用.NET WebBrowser和DOM來做到這一點。挖掘我的代碼...我會回到你身邊。

0

您沒有指定編程語言。 Apache Droids可能是你的事情,如果你願意使用Java來定製它。它計劃作爲一個最小的爬蟲,您可以根據您的特定需求進行自定義。

0

如上所述,你沒有提到一種語言。如果你使用Ruby,蜘蛛網寶石可以用於這個。您可以手動告訴它不要找到任何鏈接(默認情況下它會自動抓取所有鏈接),並且您可以自己在每個頁面上執行此操作(如您所說需要評估它們),然後可以手動將它們放入隊列中,如果您希望它們被抓取。

看來好像Ruby on Rails是由godaddy共享主機支持的,如果那就是你的。

(剛剛看到這是3年前,可能對別人有幫助!)