我想湊這個鏈接蟒蛇刮網頁並解析內容
http://www.realclearpolitics.com/epolls/json/5491_historical.js?1453388629140&callback=return_json
上的數據我不知道是什麼類型的這個環節,是HTML或JSON或別的東西。對不起我的不良網絡知識。但我嘗試使用以下代碼來進行刮擦:
import requests
url='http://www.realclearpolitics.com/epolls/json/5491_historical.js?1453388629140&callback=return_json'
source=requests.get(url).text
源的類型是unicode。我也嘗試使用urllib2進行刮取:
source2=urllib2.urlopen(url).read()
source2的類型是字符串。我不確定哪種方法更好。因爲鏈接不像正常的網頁包含不同的標籤。如果我想清除刮擦的數據並形成數據幀數據(如熊貓數據幀),我應該遵循什麼方法或過程/
謝謝。
@depperm,謝謝你的回覆。我更新鏈接。它現在應該工作。 –