當我試圖使用網址來抓取網頁時,我發現一些元素只存在於某些頁面中,而其他元素沒有。讓我們的代碼,例如Python:並非每個網頁都有一定的元素
代碼:
for urls in article_url_set:
re=requests.get(urls)
soup=BeautifulSoup(re.text.encode('utf-8'), "html.parser")
title_tag = soup.select_one('.page_article_title')
if title_tag=True:
print(title_tag.text)
else:
#do something
如果title_tag退出,我想打印出來,如果不是的話,就跳過他們。
另一件事是,我需要在數據中保存其他元素和title.tag.text。
data={
"Title":title_tag.text,
"Registration":fruit_tag.text,
"Keywords":list2
}
這將有一個錯誤的原因不是所有的文章標題有,我應該怎麼辦跳過他們,當我嘗試保存? 'NoneType'對象沒有屬性'text'
編輯:我決定不跳過它們並將它們保留爲空或無。
哦,謝謝你!我昨天實際上已經整理出來了。真的很感謝你的幫助! – Makiyo