<a href="urltxt" class="someclass" close="true">texttxt</a>
的HTML鏈接我如何可以隔離鏈接和文本?
更新
我用美麗的湯,而我無法弄清楚如何做到這一點。
我做
soup = BeautifulSoup.BeautifulSoup(urllib.urlopen(url))
links = soup.findAll('a')
for link in links:
print "link content:", link.content," and attr:",link.attrs
我得到
*link content: None and attr: [(u'href', u'_redirectGeneric.asp?genericURL=/root /support.asp')]* ...
...
爲什麼我缺少的內容?
編輯:闡述了 '堅持' 的建議:)
有可能是urllib.urlopen(url)有問題。嘗試打印出來,看看你得到什麼。它應該是網頁的直接HTML。 – 2008-11-13 00:48:46
另外,「卡住!」不是非常具有描述性。顯示更多代碼以及究竟發生了什麼問題。 – 2008-11-13 01:05:04
感謝您的額外信息,它使得查看發生的事情變得更加容易。 – 2008-11-13 02:31:42