2012-01-12 69 views

回答

1

的例子使用本地文件。如果你想使用遠程站點,你需要從服務器下載文件並解析html。

你可以看一下requesturllib2此。

我希望它能幫助

+0

import urllib2 urllib2.urlopen('http:// ...').read() 工作,但如何從soup.findAll中獲取元素(這裏有soup.find的示例)?:) – Rambo 2012-01-12 15:37:38

+0

from doc: find方法幾乎和findAll完全一樣,除了找到所有匹配的對象,它只找到第一個。 – luc 2012-01-12 15:52:33

0

當你在互聯網上解析URL,你需要找到一種方法,先下載網頁內容的HTML。有很多很棒的圖書館,比如請求,據說這對Python來說是最好的。假設你要分析https://stackoverflow.com/

import requests 
response = requests.get("https://stackoverflow.com/") 
page_html = response.text 

的page_html是Python字符串的HTML頁面,那麼你可以把它像一個本地HTML文件,瓶坯任何一種分析他們的。

至於獲取模式的所有發生,你可以做soup.findAll('input',name='fooId',type='hidden'),而不是soup.find()。 soup.findAll將返回所有發生的列表。