我在憤怒試圖解析以下代表HTML提取物,使用BeautifulSoup和LXML:Python的 - 解析HTML類
[<p class="fullDetails">
<strong>Abacus Trust Company Limited</strong>
<br/>Sixty Circular Road
<br/>DOUGLAS
<br/>ISLE OF MAN
<br/>IM1 1SA
<br/>
<br/>Tel: 01624 689600
<br/>Fax: 01624 689601
<br/>
<br/>
<span class="displayBlock" id="ctl00_ctl00_bodycontent_MainContent_Email">E-mail: </span>
<a href="mailto:[email protected]" id="ctl00_ctl00_bodycontent_MainContent_linkToEmail">[email protected]</a>
<br/>
<span id="ctl00_ctl00_bodycontent_MainContent_Web">Web: </span>
<a href="http://www.abacusiom.com" id="ctl00_ctl00_bodycontent_MainContent_linkToSite">http://www.abacusiom.com</a>
<br/>
<br/><b>Partners(s) - ICAS members only:</b> S H Fleming, M J MacBain
</p>]
我想要做什麼:
提取物 '強'文成COMPANY_NAME
提取物 'BR' 標記文本company_line_x
提取 'MainContent_Email' 文本company_email
提取 'MainContent_Web' 文本company_web
我有這些問題:
1)I可以提取通過使用.findall所有文本(文本= True),但每行有很多填充
2)非ASCII字符有時被返回,這會導致csv.writer失敗..我不是100%確定如何處理這個正確。 (我以前只是用unicodecsv.writer)
任何意見將非常感謝!
此刻,我的功能只是接收頁面數據,並使用findall()
隔離「P級」
def get_company_data(page_data):
if not page_data:
pass
else:
company_dets=page_data.findAll("p",{"class":"fullDetails"})
print company_dets
return company_dets
如何獲取頁面數據? – alecxe 2014-09-02 12:01:22
感謝您的回覆。我使用請求模塊提取數據,並將頁面數據傳遞給此函數 – 2014-09-02 12:25:42
好的,您使用的是響應文本還是內容屬性? – alecxe 2014-09-02 12:49:35