2011-09-30 120 views
-3

我想製作一個小程序,它將使用來自任何網站的每個單詞 - 意思詞 它意味着在python中,我聽說過BeautifulSoup,但我不太清楚如何用它來達到這個目的......小教程? :p 或者正如正則表達式那麼簡單?像: re.compile('<.*>(.*)<.*>') 所以括號內的所有內容? 換行之類的東西已經完成;)Python屏幕刮掉整個網站

thanx提前傢伙,遺憾的未成年人英語...

+2

什麼是「意義」? –

+0

這似乎與HTML沒有任何關係......你能否提供更多關於每個「單一的東西 - 含義詞」是什麼意思的信息? – element119

+0

可以說,我的意思是說,如果你想去那個網站,選擇一切,然後將其粘貼到notapad中......不需要標記 – user973760

回答

1

Scrapy使得網絡抓取容易。它也有很好的文檔,並且scrapy startproject命令將爲您構建一個框架項目。

1

Mechanize是一個python庫,允許您執行http請求,甚至提供一些解析html和提取您正在尋找的數據的能力。它的主要特點是可以像瀏覽器一樣處理認證和cookie等事情。

正則表達式在處理XML/HTML(你會看到)時並不理想。如果您喜歡解析庫,可以將BeautifulSoup與機械化結合使用。學習像XPath這樣的東西可以讓你的生活更簡單。

機械化和BeautifulSoup都有教程,所以開始閱讀一些代碼!