我使用LXML刮一些HTML,看起來像這樣:lxml:分割屬性?
<div align=center><a style="font-size: 1.1em">Football</a></div>
<a href="">Team A</a>
<a href="">Team B</a>
<div align=center><a style="font-size: 1.1em">Baseball</a></div>
<a href="">Team C</a>
<a href="">Team D</a>
我如何能在形式
[ {'category': 'Football', 'title': 'Team A'},
{'category': 'Football', 'title': 'Team B'},
{'category': 'Baseball', 'title': 'Team C'},
{'category': 'Baseball', 'title': 'Team D'}]
到目前爲止,我已經得到了最終的數據:
results = []
for (i,a) in enumerate(content[0].xpath('./a')):
data['text'] = a.text
results.append(data)
但我不知道如何通過拆分font-size
和保留兄弟標籤得到類別名稱 - 任何建議?
謝謝!
我不確定你錯過了哪些數據 - 結果對我來說似乎沒問題。 – miku 2011-06-13 12:46:38
它缺少類別 - 足球或棒球。 – Richard 2011-06-13 12:49:16
對不起,錯過了* * * *我怎麼能*以*形式結束數據... ... – miku 2011-06-13 12:50:29