我只是在尋找一些關於python網頁抓取的信息。我試圖從this時間表中獲得所有的數據,並且我想讓班級與其所在時間相關聯。看看html有多個表格(表格內的表格)。我打算在Python中使用Google App Engine(也許是BeautifulSoup)。任何關於這方面最好的方法的建議是?時間表與多個表的網頁刮(Python)
感謝
UPDATE:
我已經成功使用下面的代碼中提取從表中所需的數據:
import urllib
from lxml import etree
import StringIO
url = "http://ttcache.dcu.ie/Reporting/Individual;Locations;id;lg25?
template=location+Individual&weeks=20&days=1-5&periods=1-30&Width=0&Height=0"
result = urllib.urlopen(url)
html = result.read()
parser = etree.HTMLParser()
tree = etree.parse(StringIO.StringIO(html), parser)
xpath = "//table[2]/tr/td//text()"
filtered_html = tree.xpath(xpath)
print filtered_html
但我發現了很多這樣的u'\xa0', u'\xa0', '\r\n', '\r\n'
字符分散在整個解析文本中。關於如何解決這些問題的任何建議?
感謝
這是一個非常簡單的任務,你可以使用它的lxml庫。 – Denis 2013-03-15 12:43:17
請您詳細說明一下嗎?我是lxml的新手,所以不確定從哪裏開始。謝謝 – derpyderp 2013-03-15 17:04:36