web-crawler

4熱度

2回答

Scrapy CrawlSpider + Splash：如何通過linkextractor關注鏈接？

我有以下的代碼，部分工作， class ThreadSpider(CrawlSpider): name = 'thread' allowed_domains = ['bbs.example.com'] start_urls = ['http://bbs.example.com/diy'] rules = ( Rule(LinkExtractor(

2熱度

2回答

可以使用Selenium WebDriver進行自動化網頁爬行會有危險嗎？

我想爬一組從URL生成器收到的隨機的網站，使用Selenium的ChromeDriver與Crawljax做對捕獲的DOM狀態靜態代碼分析。是機器做爬行這種潛在的不安全？我擔心的是隨機生成的一個網站是惡意和JavaScript從ChromeDriver的執行（這是用來捕捉新的DOM州）感染運行測試莫名其妙的機器。我應該在某種沙箱環境中運行嗎？ - 編輯 - 如果它的事項，履帶完全用Java實現

1熱度

3回答

GoLang刮板。如何在網站上動態生成鏈接？

我試圖抓取產品視頻鏈接（它是由另一個Web服務動態生成的，位置在左側的產品圖像下）。您可以查看以下鏈接， https://www.tokopedia.com/chocoapple/ready-stock-bnib-iphone-128gb-7-plus-jet-black-garansi-apple-1-tahun-10?src=topads 谷歌瀏覽器「檢查元素」顯示div標籤。但是相同的標籤不

0熱度

1回答

數據抓取從LinkedIn

我試圖抓取來自LinkedIn，其使用個人數據抓取實踐數據。但是我無法在沒有登錄的情況下抓取數據。所以我用了兩種方法來模擬登錄。一種方法是從HttpClient獲取cookie，它將嘗試進行模擬登錄以獲取cookie。另一種是直接添加cookie。但我都失敗了。我不知道原因。我使用Framework Webmagic進行數據爬行。通常，直接添加Cookie將是一個簡單的方法。但我不知道我是否添加

0熱度

1回答

調試風暴履帶

如何調試風暴爬行？我的意思是你寫了一些模塊，你想檢查它。你可以編寫單元測試，但你想在系統上檢查它（可能是本地系統），你怎麼做？我想Julien會正確回答這個問題。

1熱度

2回答

刮板無法打印所有結果

我已經在Python中編寫了一個腳本，用於從craigslist中刪除五個項目的「名稱」和「電話」。我面臨的問題是，當我運行我的腳本時，它只給出三個結果而不是五個結果。更具體地說，由於前兩個鏈接在他們的頁面中沒有附加鏈接（聯繫信息），所以他們不需要再打開任何附加頁面的請求。然而，沒有（聯繫信息）鏈接的這兩個鏈接無法通過我的第二個函數中的「if ano_page_link：」語句滲透並且從不打印。我

1熱度

1回答

Chromedp軟件包：如何獲取已使用chromedp動態加載內容的網頁的更新HTML源代碼

我想抓取網頁上的視頻鏈接，https://www.tokopedia.com/chocoapple/ready-stock-bnib-iphone-128gb-7-plus-jet-black-garansi-apple-1-tahun-10?src=topads 有些鏈接是通過「webyclip」在加載頁面後加載數據的服務。在加載所有JavaScript和AJAX後，我想要更新頁面的HTML源代

2熱度

1回答

scrapy無法提交表格

這是我要刮的網頁： http://www.nalpdirectory.com/Page.cfm?PageID=34。我想模擬提交表單#resultDisplayOptionsForm與#customDisplayNum設置爲全部，這將帶給我一個網頁與所有列出的項目。這是我的代碼片段： def parse(self, response): yield scrapy.FormRequest

3熱度

1回答

只能通過id找到，而不能通過班級找到BeautidulSoup4（Python3.x）

我是BeautifulSoup4的新手，並且遇到了一個似乎很基本的問題。我只能通過身份證找到，但不能按班上課。例如，我在看它有HTML在它下面的部分站點：現在，以下工作： page_soup.findAll('div', {'id': 'page-content'}) 而下面發現什麼： page_soup.findAll('div', {'class': 'main-container'})

0熱度

1回答

python web抓取：onclick ajax請求返回沒有狀態200

我想從網站刮表數據。我想要的數據是隱藏在onclick事件的後面。 <a class="text" onclick="javascript:openPAOnSR_RS('some_sku', 'brandname','divId', 'some_args','OPC Page Details');cmTagAndLink('Open Link','OPC Page Details',null,nu