2010-12-01 132 views
0

在網頁中我有以下幾個要素:如何檢索onclick文本?

<a href="#" onClick="window.open('/link.php?webpage=45980a6f91ac0c850745e0500d612172" class="pagelink" >Page 1</a> 
<a href="#" onClick="window.open('/link.php?webpage=45980a6f91ac0c850745e05676787895" class="pagelink" >Page 2</a> 
<a href="#" onClick="window.open('/link.php?webpage=45980a6f91ac0c85786787666456fgg3" class="pagelink" >Page 3</a> 
<a href="#" onClick="window.open('/link.php?webpage=45980a6f91ac0c850734234324756767" class="pagelink" >Page 4</a> 
... 

,我需要檢索的類「pagelink」所有A標籤的window.open功能的文字:

/link.php?webpage=45980a6f91ac0c850745e0500d612172 
/link.php?webpage=45980a6f91ac0c850745e05676787895 
/link.php?webpage=45980a6f91ac0c85786787666456fgg3 
/link.php?webpage=45980a6f91ac0c850734234324756767 

我怎樣才能做到這一點與Python?

+0

可能重複的[如何從網頁檢索這些元素?](http://stackoverflow.com/questions/4328167/how-to-retrieve-these-elements-from-a-webpage) – user225312 2010-12-01 19:38:27

回答

1
from html.parser import HTMLParser 

class MyHTMLParser(HTMLParser): 

    def handle_starttag(self, tag, attrs): 
     attr = dict(attrs) 
     if attrs["class"] == "pagelink": 
      add_to_result(attrs["onclick"]) 

替換add_to_result與聚集的對象(如表)和實際的代碼,然後只需刪除結果導致window.open

0

此問題已經回答here。您需要解析HTML以獲取您可能需要的任何任何數據。解析是用美麗的湯完成的。

當然,有人可能會發布代碼,因爲它是這樣的,但這不是很好玩嗎?

如此反覆,一定要仔細閱讀了文件:)