解析遠程Web使用Python BeautifulSoup

https://stackoverflow.com/a/64983/468251 - 您好，我有問題，這個代碼，如何做出與遠程網站的網址的工作，以及如何獲得價值= fooId [「值」]從所有的投入，沒有隻從第一？解析遠程Web使用Python BeautifulSoup

2012-01-12 Rambo

您可以發佈您對該答案的信息的請求。不要在此發佈新問題。爲現有答案添加評論。 – 2012-01-12 15:26:35

的例子使用本地文件。如果你想使用遠程站點，你需要從服務器下載文件並解析html。

你可以看一下request或urllib2此。

我希望它能幫助

2012-01-12 15:29:14 luc

import urllib2 urllib2.urlopen（'http：// ...'）.read（）工作，但如何從soup.findAll中獲取元素（這裏有soup.find的示例）？:) – Rambo 2012-01-12 15:37:38

from doc： find方法幾乎和findAll完全一樣，除了找到所有匹配的對象，它只找到第一個。 – luc 2012-01-12 15:52:33

當你在互聯網上解析URL，你需要找到一種方法，先下載網頁內容的HTML。有很多很棒的圖書館，比如請求，據說這對Python來說是最好的。假設你要分析https://stackoverflow.com/

import requests 
response = requests.get("https://stackoverflow.com/") 
page_html = response.text

的page_html是Python字符串的HTML頁面，那麼你可以把它像一個本地HTML文件，瓶坯任何一種分析他們的。

至於獲取模式的所有發生，你可以做soup.findAll('input',name='fooId',type='hidden')，而不是soup.find()。 soup.findAll將返回所有發生的列表。

2017-08-03 03:14:45 Shawn

回答