我刮的網站,我是能夠被稱爲「性別」變量減少到這一點:網站數據抓取:拆分HTML內容
[<span style="text-decoration: none;">
Lass Christian, du Danemark, à Yverdon-les-Bains, avec 200 parts de CHF 100
</span>, <span style="text-decoration: none;">associé gérant </span>]
現在我想有隻「 associé「中的變量,但我無法找到一種方法來拆分這個HTML代碼。
原因是我想知道它是「associé」(男性)還是「associée」(女性)。
有沒有人有任何想法?
乾杯
-----編輯---- 這裏我的代碼,讓我的HTML輸出
url = "http://www.rc2.vd.ch/registres/hrcintapp-pub/companyReport.action?rcentId=5947621600000055031025&lang=FR&showHeader=false"
r = requests.get(url)
soup = BeautifulSoup(r.content,"lxml")
table = soup.select_one("#adm").find_next("table") #select_one finds only the first tag that matches a selector:
table2 = soup.select_one("#adm").find_all_next("table")
output = table.select("td span[style^=text-decoration:]", limit=2) #.text.split(",", 1)[0].strip()
print(output)
請顯示哪些代碼生產的此產品?謝謝。 – alecxe
是的,我確定現在編輯 – jjyoh