web-crawler

    1熱度

    1回答

    我是scrapy和python的新手,我很難理解流程。我不知道在哪裏放置「爬到下一頁」功能。我不知道它是否應該來後,我回調parse_data或在parse_data函數它自我 腳本邏輯: 類別中的類別,刮類別中的所有頁面。 選項1: import scrapy class Amazon01Spider(scrapy.Spider): name = 'amazon0.1'

    0熱度

    1回答

    我的要求是通過在線搜索關鍵字來對給定關鍵字進行報告。 我的計劃是,我的WebCrawler將 在谷歌搜索或谷歌,必應和雅虎 返回網站的冰或雅虎 打開網頁/鏈接關鍵字使用使報告這些頁面。 因爲我想做一個規則服從webcrawler。所以,當我看到這些網站的robots.txt我才知道,搜索引擎已經封鎖了WebCrawler的搜索關鍵字,如 google.com/robots.txt User-age

    0熱度

    1回答

    我試圖從一個函數傳遞一個值。 我查了文檔,只是不明白。 REF: def parse_page1(self, response): item = MyItem() item['main_url'] = response.url request = scrapy.Request("http://www.example.com/some_page.html",

    0熱度

    1回答

    url <-"http://news.chosun.com/svc/content_view/content_view.html?contid=1999080570392" hh = read_html(GET(url),encoding = "EUC-KR") #guess_encoding(hh) html_text(html_node(hh, 'div.par')) #html

    0熱度

    1回答

    前幾天我問這個:scrapy getting values from multiple sites ,我已經學會了如何從WEBSITE1傳遞價值WEBSITE2。這讓我從這兩個網站的收益率信息,這不能解決,當我有10個不同的網站。 我可以保持從函數傳遞值到函數,但它似乎是愚蠢的。更有效的方法是將信息接收到解析函數並從那裏產生。 這裏是我想要實現的僞代碼。 import scrapy class

    0熱度

    1回答

    我一直在試圖製作我的第一個抓取工具,並且已經創建了我所需要的(獲得1º商店和2º商店的貨運信息和價格),但使用2個抓取工具而不是1個,這裏有一個大瓶子。 當there'are超過1個店輸出的結果是: In [1]: response.xpath('//li[@class="container list-display-box__list__container"]/div/div/div/div/d

    0熱度

    3回答

    我試圖從google獲取結果並將它們保存到文件中。但結果正在重複。 當我將它們保存到文件時,只有最後一個鏈接被打印到文件。 require 'rubygems' require 'mechanize' agent = Mechanize.new page = agent.get('http://www.google.com/videohp') google_form = page.fo

    -1熱度

    1回答

    我已經寫了一個程序,在IPython的筆記本從Twitter抓取數據。該程序提供了大量的數據流作爲輸出,我想將這個輸出保存爲.txt文件。我該怎麼做?當我打開我的終端,我可以很容易地做到這一點的: 蟒蛇myfile.py> file.txt的 如何做IPython的筆記本是一回事嗎?

    0熱度

    1回答

    我試圖抓取一個網站,追加一個URL參數到每個地址之前擊中他們。這是我到目前爲止有: require "spidr" Spidr.site('http://www.example.com/') do |spider| spider.every_url { |url| puts url } end 但我想蜘蛛打所有頁面並追加設置了一個param像這樣: exampl

    0熱度

    1回答

    從谷歌的支持網站所需的正向DNS - 驗證Googlebot作爲來電: 運行使用的訪問IP地址反向DNS查找從日誌, 主機命令。確認域名位於 googlebot.com或google.com在域名 域名 上使用檢索到的 域名上的host命令運行正向DNS查找。驗證它是否與原始訪問IP 地址的日誌相同。 我的問題是爲什麼正向DNS查找是必需的?攻擊者可以創建一個形式爲crawl-xx-xx-xx-x