2012-08-16 62 views
-1

我需要解析出HTML頁面的這部分並輸出到CSV文件,然後讓它等待下一個輸出。當談到正則表達式時,我感到茫然。解析出網頁抓取輸出中的特定文本

<h1>Member Information</h1> 


<h2>Company Name</h2> 
<p>Address<br /> 
More Address<br /> 
City<br /> 
State<br /> 
Postal code<br /> 
</p> 
<p><strong>Contact:</strong> Firstname Lastname, PH.D., P.ENG. - <a href="mailto:[email protected]">[email protected]</a><br /></p> 
<a href="http://www.domain.com">www.domain.com</a><br /> 
<p><strong>Phone:</strong> (555)555-5555<br /></p> 

</div><!-- end #content --> 

沒有地址信息,但公司名稱,ID (這是從URL)我能做的,名字/姓氏(和標題如果可能的話),電子郵件,網址和電話號碼會是非常有價值的。謝謝!

回答

3

切勿使用正則表達式來解析HTML(或XML,Json,CSV ...)。

改爲使用BeautifulSoup,這是一個很好的庫,已經爲這樣的任務編寫過。

例子:

from bs4 import BeautifulSoup as BS 
soup = BS(htmltext) 
soup.h2.text 
>>> 'Company Name' 
+0

謝謝,我會努力的! – Publiccert 2012-08-16 16:33:53