我想從特定的網站或整個網絡上颳去期刊的影響因子。我一直在尋找一些接近但很難運氣的東西。用查詢刮網站
這是我第一次嘗試使用python進行網頁掃描。我試圖找到最簡單的方法。
我有一個屬於期刊的ISSN號碼列表,我想從網站或特定網站檢索它們的影響因子值。該列表的值超過50K,因此手動搜索值實際上很難。
輸入型
Index,JOURNALNAME,ISSN,Impact Factor 2015,URL,ABBV,SUBJECT
1,4OR-A Quarterly Journal of Operations Research,1619-4500,,,4OR Q J OPER RES,Management Science
2,Aaohn Journal,0891-0162,,,AAOHN J,
3,Aapg Bulletin,0149-1423,,,AAPG BULL,Engineering
4,AAPS Journal,1550-7416,,,AAPS J,Medicine
5,Aaps Pharmscitech,1530-9932,,,AAPS PHARMSCITECH,
6,Aatcc Review,1532-8813,,,AATCC REV,
7,Abdominal Imaging,0942-8925,,,ABDOM IMAGING,
8,Abhandlungen Aus Dem Mathematischen Seminar Der Universitat Hamburg,0025-5858,,,ABH MATH SEM HAMBURG,
9,Abstract and Applied Analysis,1085-3375,,,ABSTR APPL ANAL,Math
10,Academic Emergency Medicine,1069-6563,,,ACAD EMERG MED,Medicine
需要什麼樣的?
上面的輸入有一列ISSN號碼。閱讀ISSN號碼並在researchgate.net
或網頁中搜索。然後找到各個網頁搜索Impact Factor 2015
並檢索將其放置在ISSN號碼旁邊空白處的值,並將檢索到的URL放在它旁邊
因此,網絡搜索也可以限制爲一個網站和一個網站對於..空單可以保持爲「NAN」
在此先感謝您的建議和幫助
請像beautifulsoup或scrapy蟒蛇檢查網絡刮庫。這裏還有很多很棒的教程。我認爲熊貓標籤對你的問題有點不合適。刮完後,熊貓將是有用的,但。 – su79eu7k
@ su79eu7k謝謝您的建議,以開始..但是這樣的事情可能實現嗎? –
根據[this](https://blog.hartleybrody.com/web-scraping/)博客文章:**「任何可以在網頁上查看的內容都可以被刮掉。期間。」**現在,在一些這種情況可能會非常困難,但對於像上面這樣的網站,這當然是可行的。 – blacksite