用查詢刮網站

我想從特定的網站或整個網絡上颳去期刊的影響因子。我一直在尋找一些接近但很難運氣的東西。用查詢刮網站

這是我第一次嘗試使用python進行網頁掃描。我試圖找到最簡單的方法。

我有一個屬於期刊的ISSN號碼列表，我想從網站或特定網站檢索它們的影響因子值。該列表的值超過50K，因此手動搜索值實際上很難。

輸入型

Index,JOURNALNAME,ISSN,Impact Factor 2015,URL,ABBV,SUBJECT 
1,4OR-A Quarterly Journal of Operations Research,1619-4500,,,4OR Q J OPER RES,Management Science 
2,Aaohn Journal,0891-0162,,,AAOHN J, 
3,Aapg Bulletin,0149-1423,,,AAPG BULL,Engineering 
4,AAPS Journal,1550-7416,,,AAPS J,Medicine 
5,Aaps Pharmscitech,1530-9932,,,AAPS PHARMSCITECH, 
6,Aatcc Review,1532-8813,,,AATCC REV, 
7,Abdominal Imaging,0942-8925,,,ABDOM IMAGING, 
8,Abhandlungen Aus Dem Mathematischen Seminar Der Universitat Hamburg,0025-5858,,,ABH MATH SEM HAMBURG, 
9,Abstract and Applied Analysis,1085-3375,,,ABSTR APPL ANAL,Math 
10,Academic Emergency Medicine,1069-6563,,,ACAD EMERG MED,Medicine

需要什麼樣的？

上面的輸入有一列ISSN號碼。閱讀ISSN號碼並在researchgate.net或網頁中搜索。然後找到各個網頁搜索Impact Factor 2015並檢索將其放置在ISSN號碼旁邊空白處的值，並將檢索到的URL放在它旁邊

因此，網絡搜索也可以限制爲一個網站和一個網站對於..空單可以保持爲「NAN」

在此先感謝您的建議和幫助

來源

2016-11-05 Sitz Blogz

請像beautifulsoup或scrapy蟒蛇檢查網絡刮庫。這裏還有很多很棒的教程。我認爲熊貓標籤對你的問題有點不合適。刮完後，熊貓將是有用的，但。 – su79eu7k

@ su79eu7k謝謝您的建議，以開始..但是這樣的事情可能實現嗎？ –

根據[this]（https://blog.hartleybrody.com/web-scraping/）博客文章：**「任何可以在網頁上查看的內容都可以被刮掉。期間。」**現在，在一些這種情況可能會非常困難，但對於像上面這樣的網站，這當然是可行的。 – blacksite

用美麗的湯和的urllib2試試這個代碼刮庫我使用H2標籤和搜索。‘期刊影響力：’ ，但我會讓你決定算法來提取數據。HTML內容出現在湯和湯提供的API來解壓。我提供的就是一個實例，可以爲你工作。

#!/usr/bin/env python 

import urllib2 
from bs4 import BeautifulSoup 

issn = '0219-5305' 
url = 'https://www.researchgate.net/journal/%s_Analysis_and_Applications' % (issn) 
htmlDoc = urllib2.urlopen(url).read() 
soup = BeautifulSoup(htmlDoc, 'html.parser') 
for tag in soup.find_all('h2'): 
    if 'Journal Impact:' in tag.text: 
     value = tag.text 
     value = value.replace('Journal Impact:', '') 
     value = value.strip(' *') 
     print value

輸出：

1.13

我覺得美麗的湯的官方文檔是相當不錯的。如果你是新手，在編寫代碼之前，我會建議花費一個小時。花費在閱讀文檔上的那一小時將爲您節省更多的時間。

https://www.crummy.com/software/BeautifulSoup/ https://www.crummy.com/software/BeautifulSoup/bs4/doc/

來源

2016-11-05 14:30:00

非常感謝你..讓我運行腳本，並會回覆評論..再次感謝.. –

在我的情況下，我有一個ISSN號碼列表，沒有可以引用的URL。主站點被稱爲'researchgate.net'，而不是可以從中'Journal Impact'刮取的單個URL。這裏是從給定的URL中刪除。那麼可以請那個方向幫忙。 –

請你可以通過上面的評論.. –

我真的不明白你想要確切地湊什麼，但我認爲你需要的價值關鍵字搜索BeautifulSoup。

據「SA網站在python它真的很容易使用，你可以找到一個 BeautifulSoup tutorial here

來源

2016-11-05 13:57:25

謝謝..這麼多的見解..我需要的是我有很清楚給出的問題..它的第一次使用Web刮我更困惑 –

用查詢刮網站

回答

相關問題