urllib2

    2熱度

    3回答

    我試圖打開一個頁面/鏈接並捕獲它中的內容。 它有時會給我所需的內容,有時會引發錯誤。 我看到,如果我刷新頁面幾次 - 我收到內容。 所以,我想重新加載頁面並抓住它。 這裏是我的僞代碼: attempts = 0 while attempts: try: open_page = urllib2.Request(www.xyz.com) # Or I think w

    2熱度

    2回答

    我使用urllib2和BeautifulSoup庫編寫了一個Python圖片刮板,它使用包含查詢的URL發送搜索請求,然後提取鏈接到前10個圖像。我需要的是圖像的直接鏈接,例如: http://images.mentalfloss.com/sites/default/files/styles/insert_main_wide_image/public/einstein1_7.jpg 當我使用我的瀏

    1熱度

    1回答

    我正在嘗試使用json格式提交POST請求數據以創建使用Crowd API的用戶。 這裏是代碼片段: url = 'http://crowdserver/crowd/rest/usermanagement/1/user' payload = '{"name": "sampleuser", "password": {"value": "secret"}, "active": true, "firs

    0熱度

    2回答

    好了,所以我目前正在發送POST請求到一個網站,然後輸出HTML中的反應,我不想print整個頁面,一些DIV括號內只是具體內容.. 內容 比如我要輸出 <td align="right"> example </td> 所以我只希望到TD括號內輸出「榜樣」,我會怎麼做呢?

    0熱度

    1回答

    例如,我想通過狀態進行聚合,但是下面的返回數據tyep是字符串而不是數組。 如何編寫返回數組的Elasticsearch術語聚合?我的代碼 部分: import urllib2 as urllib import json query = { "size":0, "aggs":{ "states":{ "terms":{ "field":"

    0熱度

    1回答

    所以我在努力實現美麗到我目前的Python項目,好了,保持這個簡單明瞭的,我會減少我的當前腳本的複雜性。 腳本,而不BeautifulSoup - import urllib2 def check(self, name, proxy): urllib2.install_opener( urllib2.build_opener( urllib2.Pr

    0熱度

    1回答

    試圖使用urllib2,機械化和BeautifulSoup刮這個網站url。當通過瀏覽器呈現並使用FireBug進行查看時,我們可以看到帶有類progress__supporters和progress_goal的div標籤,如下所示。 但是,當我們使用urllib2.open/mechanize/selenium查看網頁,這些標籤都沒有。以下是示例代碼 def parse_petition(sel

    0熱度

    1回答

    我正在嘗試構建抓取頁面上所有鏈接並將其添加到文件的網絡抓取工具。 我的Python代碼中包含執行以下操作的方法: - 打開一個給定的網頁(urllib2的模塊被使用) 檢查該HTTP報頭內容類型包含text/html 將原始HTML響應轉換爲可讀代碼並將其存儲到html_string變量。 然後,它創建一個Link_Finder類,它具有屬性基url(Spider_url)和page url(pa

    -1熱度

    1回答

    我成功地填充了一個json.load(響應)請求並能夠導航/查看結果,並且看起來是我期待的。然而,當我嘗試訪問屬性時,我得到一個KeyError。在這種情況下,我需要將一個局部變量設置爲「SHORT_NAME」屬性。 {u'fieldAliases ':{u'SHORT_NAME':u'SHORT_NAME」,u'OBJECTID ': u'OBJECTID'},u'fields ':[{u'al

    0熱度

    2回答

    我想從使用urllib2的quandl中獲取數據。請檢查下面的代碼。 import json from pymongo import MongoClient import urllib2 import requests import ssl #import quandl codes = [100526]; for id in codes: url = 'https://ww