解析出網頁抓取輸出中的特定文本

-1

我需要解析出HTML頁面的這部分並輸出到CSV文件，然後讓它等待下一個輸出。當談到正則表達式時，我感到茫然。解析出網頁抓取輸出中的特定文本

<h1>Member Information</h1> 


<h2>Company Name</h2> 
<p>Address<br /> 
More Address<br /> 
City<br /> 
State<br /> 
Postal code<br /> 
</p> 
<p><strong>Contact:</strong> Firstname Lastname, PH.D., P.ENG. - <a href="mailto:[email protected]">[email protected]</a><br /></p> 
<a href="http://www.domain.com">www.domain.com</a><br /> 
<p><strong>Phone:</strong> (555)555-5555<br /></p> 

</div><!-- end #content -->

沒有地址信息，但公司名稱，ID （這是從URL）我能做的，名字/姓氏（和標題如果可能的話），電子郵件，網址和電話號碼會是非常有價值的。謝謝！

來源

2012-08-16 Publiccert

切勿使用正則表達式來解析HTML（或XML，Json，CSV ...）。

改爲使用BeautifulSoup，這是一個很好的庫，已經爲這樣的任務編寫過。

例子：

from bs4 import BeautifulSoup as BS 
soup = BS(htmltext) 
soup.h2.text 
>>> 'Company Name'

來源

2012-08-16 16:25:36 Lanaru

謝謝，我會努力的！ – Publiccert 2012-08-16 16:33:53

解析出網頁抓取輸出中的特定文本

回答

相關問題