所以,我是python的新手,並且正在嘗試開發一個練習,在該練習中,我從該網址的列表中刮取頁碼,該列表是各種已發表論文的列表。Python網絡抓取解決方案
當我進入了我想刮的頁面的HTML元素,我檢查元素,找到這個HTML代碼來匹配:
<div class="src">
Foreign Affairs, Vol. 79, No. 4 (Jul. - Aug., 2000), pp. 53-63
</div>
,我想生產出什麼是在部分在類括號之間。 這是我爲了完成這項工作而想寫的東西。
import requests
from bs4 import BeautifulSoup
url = "http://www.jstor.org/action/doAdvancedSearch?c4=AND&c5=AND&q2=&pt=&q1=nuclear&f3=all&f1=all&c3=AND&c6=AND&q6=&f4=all&q4=&f0=all&c2=AND&q3=&acc=off&c1=AND&isbn=&q0=china+&f6=all&la=&f2=all&ed=2001&q5=&f5=all&group=none&sd=2000"
r = requests.get(url)
soup = BeautifulSoup(r.content)
links = soup.find_all("div class='src'")
for link in links:
print
我知道這段代碼是未完成的,那是因爲我不知道該從哪裏去:/。有人能幫我一下嗎?
您想要標籤文本?喜歡:「外交事務,第79卷,第4期(2000年7月 - 8月),第53-63頁」? –
提示:[檢查網站條款](http://about.jstor.org/terms)**內容的禁止使用**(d)進行任何活動,例如使用自動下載或導出的計算機程序內容通常被稱爲網絡機器人,蜘蛛,爬蟲,流浪者或加速器,可能會干擾,破壞或以其他方式加重JSTOR服務器的負擔 –
您是否確實嘗試閱讀文檔? https://www.crummy.com/software/BeautifulSoup/bs4/doc/ –