2011-05-19 73 views
2

我一直在尋找一個新的業餘愛好編程項目,我認爲這會很有趣,可以通過編程方式從網站收集信息,然後分析這些數據來執行聚合或過濾等操作。例如,如果我想編寫一個可能需要Craiglist列表的應用程序,然後執行諸如僅顯示匹配特定城市而不僅僅是地理區域的應用程序。這只是一個簡單的例子,但您可以像Google分析網站內容以瞭解如何對其進行排名一樣先進和複雜。如何開始以編程方式分析網站內容?

我對這個主題幾乎一無所知,我認爲了解更多關於它會很有趣,或者希望在該主題中做一個非常適度的編程項目。我的問題是,我知道的很少,我甚至不知道如何找到關於該主題的更多信息。

這些類型的程序叫什麼?在Google上搜索時使用哪些有用的關鍵字?我在哪裏可以得到一些介紹性閱讀材料?我應該閱讀有趣的論文嗎?

我只需要一個人來消除我的無知,這樣我就可以自己做一些研究。

回答

1

cURL(http://en.wikipedia.org/wiki/CURL)是獲取網站內容並將其交給處理器的好工具。

如果你精通某種語言,看看它是否支持cURL。如果沒有,PHP(php.net)可能是一個很好的開始。

當您通過cURL檢索到網站的內容時,可以使用該語言的文本處理功能來解析數據。您可以使用正則表達式(http://www.regular-expressions.info/)或PHP的strstr()函數來查找並提取您尋找的特定數據。

+0

這看起來是一個很好的開始。謝謝。 – wolmz 2011-05-19 19:41:27

1

「掃描」其他網站的程序通常稱爲web crawlers或蜘蛛。

+0

這正是我所期待的!試圖在不知道正確的關鍵字的情況下搜索信息可能非常困難。這有助於很多。謝謝。 – wolmz 2011-05-19 19:42:39