web-crawler

1熱度

2回答

使用這個語法： x('http://www.viadeo.com/fr/company/unicef', '.page-content', [{ img:'[email protected]', bio:'.pan-desc-description', org:'.pan-desc-footer-element @element-value',

0熱度

1回答

Web Crawler --- TypeError：強制爲Unicode：需要字符串或緩衝區，找不到類型

我是新來的python。我已經制作了我自己的網絡爬蟲，這個爬蟲應該是爲了練習Yelp。我不斷收到這個錯誤，似乎無法讓過去的第一頁： Traceback (most recent call last): File "<stdin>", line 1, in <module> File "<stdin>", line 26, in yelpSpider TypeErr

3熱度

2回答

使用python腳本從informer.com抓取和下載文件

爲了研究目的，我需要構建一組良性程序。首先，我需要從http://downloads.informer.com獲得這些程序。爲此，我編寫了一個python腳本，用於迭代每個下載頁面並將下載鏈接提取到列表中。之後，腳本使用這些鏈接下載程序（這些程序是exe，msi或zip文件）。不幸的是，在這一步，腳本運行時出現錯誤，指出（AttributeError：'Request'對象沒有'decode'屬性

2熱度

1回答

使用硒：如何在Python中關閉驅動程序後保持登錄

我想讓我的Whatsapp網絡（web.whatsapp.com）登錄，第二次在chrome驅動程序上打開Whatsapp網頁。以下是我基於Python的代碼需要你的幫助。 from selenium import webdriver from selenium.webdriver.chrome.options import Options chrome_path = r"chromedr

1熱度

1回答

如何使用PHP解析robots.txt文件？

我想解析一個網站的robots.txt文件（其中Facebook是一個隨機的網址）。我想擺脫任何不適合用戶代理的行（如本例中的前兩個）。所以也許擺脫任何不以A，D或U開頭的行？我也想讓每個用戶代理自己的關聯數組的標題是用戶代理即得到所有的谷歌機器人允許和不允許的網址我將print_r $ arr [googleBot]。這是我的代碼到目前爲止！ <?php //URl to start

0熱度

1回答

NodeJS - 請求一個頁面以後加載的信息

我正在做一個與nodeJS的網絡爬蟲，它的工作，它調用頁面，我使用cheerio轉換爲JQuery，並調用標籤。現在我試圖調用頁面的註釋，但問題是，我想要的標記是在Ajax GET請求幾秒鐘後加載的。而且我做出的請求承諾找不到這個特定的標籤，因爲它稍後加載。有一些方法可以找到標籤加載？代碼： /* Requires */ var rp = require('request-promise'

-1熱度

2回答

Scrapy：停止爬行一個域，如果條件滿足

跳到下一個我喜歡寫BFO寬履帶，其執行以下操作：開始第一URL 試圖找到鏈接到Impressum RegEx: '.*mpressum.*'（翻譯：印記）檢查是否符合某些條件。在我的情況下，如果郵政編碼在一定範圍內如果滿足條件繼續爬行頁面如果不符合條件，請停止對該域進行爬網以將其從未來爬網列入黑名單。與未來域繼續我怎樣才能實現Scrapy這種行爲？基本上我這樣做是因爲我想回答以下問題

0熱度

2回答

調整Storm-Crawler以充分利用可用資源

我有一個完全專用於基於Storm-Crawler的履帶的節點。我有20個雙核CPU，130 Gb的RAM和10Gb/s以太網連接。我將我的拓撲縮小爲：CollapsingSpout - > URLPartitionerBolt - > FetcherBolt。噴口正在從Elasticsearch索引（大約50 M記錄）讀取。 Elasticsearch配置有30 GB RAM和2個碎片。我使用

-1熱度

1回答

在scrapy中選擇文件名

我有一個url列表，每個url都與一個唯一的ID相關聯。我想使用scrapy下載每個URL並將它們保存在一個以其唯一ID命名的文件中。我通過一個基本的教程去了，有下面的代碼，但不知道我怎樣才能獲得UID，同時節省解析後的文件 - import scrapy import json class QuotesSpider(scrapy.Spider): name = "quotes"

0熱度

2回答

在Apache Nutch 2.3.1中選取的外部URL獲取

我有特定主題的小種子。我希望Nutch只應遵循預期涉及相關主題的那些外部鏈接（它可能僅僅是一種啓發式）。我該怎麼做。如果我必須寫一些插件，那麼擴展點應該是什麼。有沒有可用的例子。