2011-01-05 73 views

回答

4

最好的一個是你最舒服的一個。

1

只要您使用正確的工具來完成這項工作,這並不重要。

您需要考慮部署應用程序的位置(網絡與桌面),您想花費學習新技術/語言的時間以及解析RSS和/或XML和/或HTML的庫的可用性。不過,您提到的三種語言都是很好的選擇。

0

RSS文件只是通過互聯網獲得的格式化XML。所有你需要的語言是它可以發出一個HTTP請求,並且有解析XML的方法。

0

框架代碼可以放在任何東西中,但可以考慮使用XSL轉換(或XPath查詢)將XML轉換爲更適合的格式。愛斯佩克。如果你正在尋找數據的小部分,或個人價值。

如果源數據本來是要首先被機器分析的話,這幾乎不會「刮」。 :)

0

如果您對某種特定技術更強大,並且您擁有一條死路(或其他因素),那麼請使用該技術,因爲它們都具有功能。

如果情況並非如此,那麼它會落到您正在進行的項目的要求以及如果您想要/能夠學習新技術。

PHP是最自然的基於web的技術,您可以使用像Simple HTML DOM Parser這樣的庫(它也支持XML)以獲得快速結果,並深入研究PHP將支持的網絡抓取的複雜性。

Java有一個很好的項目Web Harvest,我過去曾經用過很好的結果(雖然你學習了一個非標準的xml語法,但它與xslt類似),並且一旦你的系統設置了你的網頁抓取很容易修改。

當涉及到正則表達式時,Perl是最強大的(Java和特別是使用正則表達式時PHP會變得有點麻煩),而正則表達式是一種很好的技巧,因此取決於你想要對你的信息做什麼也是一個可以選擇的選項。

0

如果您正在編寫需要經常運行的服務器應用程序並在大量站點上聚合內容,那麼性能應該是您的重要標準。這意味着能夠快速處理大量數據的語言。

如果你只是需要一個程序來偶爾運行並從多個頁面中挑出一些數據,那麼你可以考慮一種專門的語言。產品TestPlan提供了一種非常簡單的語言,可以讓您快速獲取RSS內容並以簡單的方式公開它。

我用它在一些重要的刮板項目。雖然速度並不快,但腳本非常易於維護。

相關問題