web-crawler

1熱度

1回答

我是scrapy和python的新手，我很難理解流程。我不知道在哪裏放置「爬到下一頁」功能。我不知道它是否應該來後，我回調parse_data或在parse_data函數它自我腳本邏輯：類別中的類別，刮類別中的所有頁面。選項1： import scrapy class Amazon01Spider(scrapy.Spider): name = 'amazon0.1'

0熱度

1回答

如何在Google上進行網絡抓取

我的要求是通過在線搜索關鍵字來對給定關鍵字進行報告。我的計劃是，我的WebCrawler將在谷歌搜索或谷歌，必應和雅虎返回網站的冰或雅虎打開網頁/鏈接關鍵字使用使報告這些頁面。因爲我想做一個規則服從webcrawler。所以，當我看到這些網站的robots.txt我才知道，搜索引擎已經封鎖了WebCrawler的搜索關鍵字，如 google.com/robots.txt User-age

0熱度

1回答

scrapy從多個站點獲取值

我試圖從一個函數傳遞一個值。我查了文檔，只是不明白。 REF： def parse_page1(self, response): item = MyItem() item['main_url'] = response.url request = scrapy.Request("http://www.example.com/some_page.html",

0熱度

1回答

中的R - 與rvest爬行 - 用失敗HTML_TEXT使用rvest功能

url <-"http://news.chosun.com/svc/content_view/content_view.html?contid=1999080570392" hh = read_html(GET(url),encoding = "EUC-KR") #guess_encoding(hh) html_text(html_node(hh, 'div.par')) #html

0熱度

1回答

scrapy如何從miltiable來源的收益

前幾天我問這個：scrapy getting values from multiple sites ，我已經學會了如何從WEBSITE1傳遞價值WEBSITE2。這讓我從這兩個網站的收益率信息，這不能解決，當我有10個不同的網站。我可以保持從函數傳遞值到函數，但它似乎是愚蠢的。更有效的方法是將信息接收到解析函數並從那裏產生。這裏是我想要實現的僞代碼。 import scrapy class

0熱度

1回答

Scrapy檢測Xpath是否存在

我一直在試圖製作我的第一個抓取工具，並且已經創建了我所需要的（獲得1º商店和2º商店的貨運信息和價格），但使用2個抓取工具而不是1個，這裏有一個大瓶子。當there'are超過1個店輸出的結果是： In [1]: response.xpath('//li[@class="container list-display-box__list__container"]/div/div/div/div/d

0熱度

3回答

抓取時YouTube的重複結果

我試圖從google獲取結果並將它們保存到文件中。但結果正在重複。當我將它們保存到文件時，只有最後一個鏈接被打印到文件。 require 'rubygems' require 'mechanize' agent = Mechanize.new page = agent.get('http://www.google.com/videohp') google_form = page.fo

-1熱度

1回答

如何將iPython筆記本的整個輸出保存爲.txt文件？

我已經寫了一個程序，在IPython的筆記本從Twitter抓取數據。該程序提供了大量的數據流作爲輸出，我想將這個輸出保存爲.txt文件。我該怎麼做？當我打開我的終端，我可以很容易地做到這一點的：蟒蛇myfile.py> file.txt的如何做IPython的筆記本是一回事嗎？

0熱度

1回答

Ruby抓取網站，添加網址參數

我試圖抓取一個網站，追加一個URL參數到每個地址之前擊中他們。這是我到目前爲止有： require "spidr" Spidr.site('http://www.example.com/') do |spider| spider.every_url { |url| puts url } end 但我想蜘蛛打所有頁面並追加設置了一個param像這樣： exampl

0熱度

1回答

爲什麼是驗證爬蟲

從谷歌的支持網站所需的正向DNS - 驗證Googlebot作爲來電：運行使用的訪問IP地址反向DNS查找從日誌，主機命令。確認域名位於 googlebot.com或google.com在域名域名上使用檢索到的域名上的host命令運行正向DNS查找。驗證它是否與原始訪問IP 地址的日誌相同。我的問題是爲什麼正向DNS查找是必需的？攻擊者可以創建一個形式爲crawl-xx-xx-xx-x