林創建一個使用瓶和一個RESTful API,用於其暴露的方法之一,我試着去解析,看起來像這樣的HTML:的Python - 解析HTML列表並創建一個JSON陣列出來的
<li class="product some_product">
<div class="product_wrap">
<div class="basic_stat product_title">
<a href="/product/type/title1">
The Never Ending Story
</a>
</div>
<div class="basic_stat product_score score">
<div class="score_w">
100
</div>
</div>
它爲其他20種不同的標題重複相同的格式。我試着去創建一個JSON結構出的這些,將看起來像
[{"Title": "The Never Ending Story", "Score": "100"}...]
等等....
對於這一點,我測試BeautifulSoup導航HTML:
my_list = BeautifulSoup(html)
>>> my_list.find_all("div", text=lambda text: text and "score_w" in text)
[]
給出例如,我是一個空數組。
如何僅過濾需要的行(文本),而不在每行的開始處留出任何空格?就是這一點,是給我一些頭痛的唯一部件....
,如:
The Never Ending Story
100
Titanic
80
Jurassic World
70
我可以轉化成JSON自己事後管理。
林不知道如果我在正確的道路上,或者我應該嘗試一種完全不同的方法。我想先得到這樣的文本值,然後創建字典或JSON應該是一件簡單的事情。
我真的appreaciate你的幫助
僅對您發出警告,要求提供廣泛建議的問題在技術上被認爲是脫離主題,因此可能會被標記爲結果。 – Feathercrown
哎呀,抱歉不能肯定這將被認爲是「廣泛的建議」,實際上是作爲一個海報的新的stackoverflow。當我進一步測試並接近我的目標時,我會回來 - 對不起。 – geekiechic
@geekiechic你能粘貼更多的HTML嗎?我需要查看幾種產品的結構才能夠幫助您。 –