web-crawler

    1熱度

    2回答

    我不斷收到錯誤‘失蹤1個人需要位置參數:‘section_url’’ 我每次嘗試的findall工作,我得到這個錯誤。 新學習python,所以任何幫助將不勝感激! from bs4 import BeautifulSoup import urllib3 def extract_data(): BASE_URL = "http://www.chicagotribune.com/

    0熱度

    1回答

    我已經寫了一些python腳本來抓取該網頁中可用的下一頁鏈接,此鏈接現在運行良好。這個刮板的唯一問題是它不能擺脫重複的鏈接。希望有人能幫我完成這件事。我試着: import requests from lxml import html page_link = "https://yts.ag/browse-movies" def nextpage_links(main_link):

    2熱度

    2回答

    我有一個關於從網頁抓取數據的問題。有些網站對請求有限制,如何在這種情況下抓取網頁?

    1熱度

    1回答

    我已經在vba中編寫了一些代碼,以獲得從網頁導向下一頁的所有鏈接。下一頁鏈接的最大數量是255.運行我的腳本,我得到了6906鏈接中的所有鏈接。這意味着循環一次又一次地運行,我覆蓋了一些東西。篩選出重複的鏈接我可以看到有254個獨特的鏈接。我的目標不是將最高頁碼硬編碼到迭代鏈接。以下是我與努力: Sub YifyLink() Const link = "https://www.yify-

    0熱度

    1回答

    我正在設置抓取工具以獲取產品信息,爲此,我使用機械化,結果是nokogiri,我有一個URL(http://www.megamamute.com.br/brother%205652),它只返回一個產品,但我不能得到正確的正則表達式來獲得這個項目的價格,我要的是裏面的DIV稱爲X-產品: HTML <div class="pager top" id="PagerTop_66064345"></div

    -1熱度

    1回答

    以下抓取雖然很短,但速度很慢。我的意思是,「在一部長篇電影中流行,」慢。 def bestActressDOB(): # create empty bday list bdays = [] # for every base url for actress in getBestActresses("https://en.wikipedia.org/wiki/

    1熱度

    1回答

    我的目標是建立一個分佈式爬行程序,它一次處理多個網站,同時處理多個查詢。 爲此,我使用標準包(如'requests'和'BeautifulSoup')在Python中構建了一個網絡爬蟲。它工作正常。 爲了使它分佈,我使用rabbitMQ。它使我能夠通過一個以上的進程幫助爬網來加快系統的速度。 我的系統工作在一個workpool模型: 我有一個主服務器接收查詢,並開始爲他們每個人一個新的爬行。 開始

    1熱度

    4回答

    我正在玩一個簡單的多線程網絡爬蟲。我看到很多消息來源都將抓取工具稱爲「明顯並行」,因爲您可以從不同的URL進行抓取,但我從來沒有看到他們討論過抓取工具如何處理他們以前見過的URL。看起來,某種全球地圖對於避免重複搜索同一頁面至關重要,但是關鍵部分將如何構建?爲了最大限度地提高性能,鎖具有多細密?我只想看到一個不太密集,不太簡單的例子。

    0熱度

    1回答

    如果不需要驗證,我可以使用lxml模塊獲取網站的html。但是,如果需要的話,我如何使用python輸入'用戶名'和'密碼'?

    0熱度

    1回答

    所以我正在嘗試做一個小爬蟲來挑選幾個Google搜索圖片鏈接,然後下載它們。這不會是每天1000次查詢需要運行1000次的任何事情,而只是一個簡單的腳本,可以爲特定搜索詞下載第一批圖像。 對於我有以下代碼: import requests from bs4 import BeautifulSoup import json import urllib s = requests.sessio