2011-03-04 98 views
1

我正在開發一個項目,以獲取Google搜索網頁,然後清理HTML標記以獲取純文本內容。獲取Google搜索結果和清除HTML標記的建議

可用工具的任何建議(尤其是Python的工具)

千恩萬謝。

+0

http://lxml.de/ – thirtydot 2011-03-04 21:38:14

+0

建議:繼續搜索HTML解析和Python。例如http://stackoverflow.com/search?q=html+parsing+%5Bpython%5D有很多關於如何繼續的提示。 – 2011-03-04 21:54:58

+4

我對一件事感到好奇......您是否故意不使用Google的自定義搜索API?它將爲您提供比搜索結果的HTML更穩定的一組結果,其格式不保證在請求後保持相同的請求。 – 2011-03-04 22:04:34

回答

0

Python有一個內置的實際上很快,發現here。還有一個叫Beautiful Soup的功能非常強大,它提供了額外的功能,尤其是對於HTML抓取。但是,我也不得不問,爲什麼不使用搜索API?

+1

剛剛找到一個很酷的python腳本[鏈接](http://breakingcode.wordpress.com/2010/06/29/google-search-python/)它提供了一種非常簡單的方式來從Google搜索結果。另外,由於Google每天只允許每個帳戶100次自定義搜索,因此作者警告我們不要在公司代理的後面工作。 – Leo5188 2011-03-05 02:30:34

2

我會檢查出Pattern,它是一個Python Web挖掘模塊,提供一套文本檢索,分析和viz工具。我沒有親自使用它,但看起來很強大。

Module pattern.web是一個Web工具包,它將各種API(Google,Gmail,Bing,Twitter,Wikipedia,Flickr)與強大的HTML解析器和Web Spider捆綁在一起。其目的是以易於使用的統一方式檢索在線內容。

+0

謝謝約翰,我從Twitter注意到這一點,但沒有將其鏈接到我的任務。 – Leo5188 2011-03-06 14:33:43