2010-12-01 71 views
1

我對HTML這些元素的網頁:如何從網頁中檢索這些元素?

<div class="content_page"> 
    <a href="/earth" class="nametessera" >earth</a> 
</div> 
<div class="content_page"> 
    <a href="/world" class="nametessera" >world</a> 
</div> 
<div class="content_page"> 
    <a href="/planet" class="nametessera">planet</a> 
</div> 
... 

我需要檢索/地球/世界/地球等 所以我需要檢索標籤A的各個環節與類「nametessera」 。

我該怎麼用python做到這一點?

回答

3

簡短的回答:

使用beautifulSoup解析頁面,得到的網址,然後使用urlib2pycurl下載網址提及。

[編輯:]

添加到下面,但僅使用包含在div

>>> alldiv = soup.findAll('div', { "class" : "content_page" }) 
>>> for div in alldiv: print div.a 
... 
<a href="/earth" class="nametessera">earth</a> 
<a href="/world" class="nametessera">world</a> 
<a href="/planet" class="nametessera">planet</a> 
>>> for div in alldiv: print div.a['href'] 
... 
/earth 
/world 
/plan 

同樣,你也可以做

allHref = soup.findAll('a', { "class" : "nametessera" }) 
+0

其實soup.findAll('div',{「class」:「content_page」})相當於soup.findAll(「div」,「content_page」) – zifot 2010-12-01 19:38:31