web-crawler

1熱度

2回答

我不斷收到錯誤‘失蹤1個人需要位置參數：‘section_url’’ 我每次嘗試的findall工作，我得到這個錯誤。新學習python，所以任何幫助將不勝感激！ from bs4 import BeautifulSoup import urllib3 def extract_data(): BASE_URL = "http://www.chicagotribune.com/

0熱度

1回答

如何限制重複鏈接被解析？

我已經寫了一些python腳本來抓取該網頁中可用的下一頁鏈接，此鏈接現在運行良好。這個刮板的唯一問題是它不能擺脫重複的鏈接。希望有人能幫我完成這件事。我試着： import requests from lxml import html page_link = "https://yts.ag/browse-movies" def nextpage_links(main_link):

2熱度

2回答

有限制的網頁抓取

我有一個關於從網頁抓取數據的問題。有些網站對請求有限制，如何在這種情況下抓取網頁？

1熱度

1回答

如何獲取通往下一頁的所有鏈接？

我已經在vba中編寫了一些代碼，以獲得從網頁導向下一頁的所有鏈接。下一頁鏈接的最大數量是255.運行我的腳本，我得到了6906鏈接中的所有鏈接。這意味着循環一次又一次地運行，我覆蓋了一些東西。篩選出重複的鏈接我可以看到有254個獨特的鏈接。我的目標不是將最高頁碼硬編碼到迭代鏈接。以下是我與努力： Sub YifyLink() Const link = "https://www.yify-

0熱度

1回答

機械化和Nokogiri：試圖搜索div中的項目

我正在設置抓取工具以獲取產品信息，爲此，我使用機械化，結果是nokogiri，我有一個URL（http://www.megamamute.com.br/brother%205652），它只返回一個產品，但我不能得到正確的正則表達式來獲得這個項目的價格，我要的是裏面的DIV稱爲X-產品： HTML <div class="pager top" id="PagerTop_66064345"></div

-1熱度

1回答

優化網絡抓取

以下抓取雖然很短，但速度很慢。我的意思是，「在一部長篇電影中流行，」慢。 def bestActressDOB(): # create empty bday list bdays = [] # for every base url for actress in getBestActresses("https://en.wikipedia.org/wiki/

1熱度

1回答

Python中的分佈式計算 - 網絡爬蟲

我的目標是建立一個分佈式爬行程序，它一次處理多個網站，同時處理多個查詢。爲此，我使用標準包（如'requests'和'BeautifulSoup'）在Python中構建了一個網絡爬蟲。它工作正常。爲了使它分佈，我使用rabbitMQ。它使我能夠通過一個以上的進程幫助爬網來加快系統的速度。我的系統工作在一個workpool模型：我有一個主服務器接收查詢，並開始爲他們每個人一個新的爬行。開始

1熱度

4回答

併發的Web爬蟲是否通常將訪問的URL存儲在併發映射中，或者使用同步來避免同一頁面爬行兩次？

我正在玩一個簡單的多線程網絡爬蟲。我看到很多消息來源都將抓取工具稱爲「明顯並行」，因爲您可以從不同的URL進行抓取，但我從來沒有看到他們討論過抓取工具如何處理他們以前見過的URL。看起來，某種全球地圖對於避免重複搜索同一頁面至關重要，但是關鍵部分將如何構建？爲了最大限度地提高性能，鎖具有多細密？我只想看到一個不太密集，不太簡單的例子。

0熱度

1回答

如何在網站需要驗證時使用python獲取html？

如果不需要驗證，我可以使用lxml模塊獲取網站的html。但是，如果需要的話，我如何使用python輸入'用戶名'和'密碼'？

0熱度

1回答

只使用BeautifulSoup獲取特定尺寸的圖像

所以我正在嘗試做一個小爬蟲來挑選幾個Google搜索圖片鏈接，然後下載它們。這不會是每天1000次查詢需要運行1000次的任何事情，而只是一個簡單的腳本，可以爲特定搜索詞下載第一批圖像。對於我有以下代碼： import requests from bs4 import BeautifulSoup import json import urllib s = requests.sessio