2016-11-05 86 views
0

我想從特定的網站或整個網絡上颳去期刊的影響因子。我一直在尋找一些接近但很難運氣的東西。用查詢刮網站

這是我第一次嘗試使用python進行網頁掃描。我試圖找到最簡單的方法。

我有一個屬於期刊的ISSN號碼列表,我想從網站或特定網站檢索它們的影響因子值。該列表的值超過50K,因此手動搜索值實際上很難。

輸入型

Index,JOURNALNAME,ISSN,Impact Factor 2015,URL,ABBV,SUBJECT 
1,4OR-A Quarterly Journal of Operations Research,1619-4500,,,4OR Q J OPER RES,Management Science 
2,Aaohn Journal,0891-0162,,,AAOHN J, 
3,Aapg Bulletin,0149-1423,,,AAPG BULL,Engineering 
4,AAPS Journal,1550-7416,,,AAPS J,Medicine 
5,Aaps Pharmscitech,1530-9932,,,AAPS PHARMSCITECH, 
6,Aatcc Review,1532-8813,,,AATCC REV, 
7,Abdominal Imaging,0942-8925,,,ABDOM IMAGING, 
8,Abhandlungen Aus Dem Mathematischen Seminar Der Universitat Hamburg,0025-5858,,,ABH MATH SEM HAMBURG, 
9,Abstract and Applied Analysis,1085-3375,,,ABSTR APPL ANAL,Math 
10,Academic Emergency Medicine,1069-6563,,,ACAD EMERG MED,Medicine 

需要什麼樣的?

上面的輸入有一列ISSN號碼。閱讀ISSN號碼並在researchgate.net或網頁中搜索。然後找到各個網頁搜索Impact Factor 2015並檢索將其放置在ISSN號碼旁邊空白處的值,並將檢索到的URL放在它旁邊

因此,網絡搜索也可以限制爲一個網站和一個網站對於..空單可以保持爲「NAN」

在此先感謝您的建議和幫助

+1

請像beautifulsoup或scrapy蟒蛇檢查網絡刮庫。這裏還有很多很棒的教程。我認爲熊貓標籤對你的問題有點不合適。刮完後,熊貓將是有用的,但。 – su79eu7k

+0

@ su79eu7k謝謝您的建議,以開始..但是這樣的事情可能實現嗎? –

+0

根據[this](https://blog.hartleybrody.com/web-scraping/)博客文章:**「任何可以在網頁上查看的內容都可以被刮掉。期間。」**現在,在一些這種情況可能會非常困難,但對於像上面這樣的網站,這當然是可行的。 – blacksite

回答

3

用美麗的湯和的urllib2試試這個代碼刮庫我使用H2標籤和搜索。‘期刊影響力:’ ,但我會讓你決定算法來提取數據。HTML內容出現在湯和湯提供的API來解壓。我提供的就是一個實例,可以爲你工作。

#!/usr/bin/env python 

import urllib2 
from bs4 import BeautifulSoup 

issn = '0219-5305' 
url = 'https://www.researchgate.net/journal/%s_Analysis_and_Applications' % (issn) 
htmlDoc = urllib2.urlopen(url).read() 
soup = BeautifulSoup(htmlDoc, 'html.parser') 
for tag in soup.find_all('h2'): 
    if 'Journal Impact:' in tag.text: 
     value = tag.text 
     value = value.replace('Journal Impact:', '') 
     value = value.strip(' *') 
     print value 

輸出:

1.13 

我覺得美麗的湯的官方文檔是相當不錯的。如果你是新手,在編寫代碼之前,我會建議花費一個小時。花費在閱讀文檔上的那一小時將爲您節省更多的時間。

https://www.crummy.com/software/BeautifulSoup/ https://www.crummy.com/software/BeautifulSoup/bs4/doc/

+0

非常感謝你..讓我運行腳本,並會回覆評論..再次感謝.. –

+0

在我的情況下,我有一個ISSN號碼列表,沒有可以引用的URL。主站點被稱爲'researchgate.net',而不是可以從中'Journal Impact'刮取的單個URL。這裏是從給定的URL中刪除。那麼可以請那個方向幫忙。 –

+0

請你可以通過上面的評論.. –

1

我真的不明白你想要確切地湊什麼,但我認爲你需要的價值關鍵字搜索BeautifulSoup

據「SA網站在python它真的很容易使用,你可以找到一個 BeautifulSoup tutorial here

+0

謝謝..這麼多的見解..我需要的是我有很清楚給出的問題..它的第一次使用Web刮我更困惑 –