我解析與BS4和Python 3.5的網頁。 試圖只提取從一個div,看起來像這樣的用戶名(鏈接文本):從div中提取特定文本與beautifulsoup4
<div class="about"><a href="es_viewprofile.aspx?profile_id=110181766">claudiakenzo</a> 33 Pasar el rato <font color="green">En línea</font></div>
米的目標是讓只有div的第一部分,在這種情況下,字符串「claudiakenzo」
這是我想使用的代碼:
for link in soup.find_all("div", {'class': 'about'}):
print(username = link.text)
理論上我應該得到我想要的東西,但沒有...我得到的輸出:
claudiakenzo 33 Pasar el rato En línea
我不想要「33」,「Pasar el rato」或「Enlínea」部分。 我在做什麼錯,什麼是正確的代碼來提取我所需要的? 不幸的是,一些用戶名還包含數字,因此使用re很複雜......但我覺得必須有比使用re更簡單的方法來完成此操作。
PS-如果硒問題更容易解決,我也願意嘗試。 謝謝!