web-crawler

    0熱度

    2回答

    scrapy-redis框架,redis存儲xxx:請求已被抓取完畢,但程序仍在運行,如何自動停止程序,而不是一直在運行? 運行代碼: 2017-08-07 09:17:06 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min) 2017-08-07

    1熱度

    1回答

    對於我的論文,我做多頁,單頁設計之間的比較。我想比較的有多少網站使用統計他們 有沒有辦法找到這些信息?或者我是否必須爬行才能找到像Alexa 100萬個網站這樣的網站?即使使用爬行方法,您如何確定MPA/SPA? 有沒有發現這更好的辦法?

    0熱度

    1回答

    我在Scrapy + Splash中有一個可用的爬蟲。它在許多頁面上啓動了一個蜘蛛。每個頁面都包含一個鏈接列表。對於每一頁蜘蛛下載的頁面,然後,一些頁面鏈接(不遞歸)。所有頁面都保存在文件系統上。該系統完美無瑕。目前我正在重構它來添加一些數據庫交互。 我沒有使用物品,也沒有物品管道。 使用它們有什麼好處? 添加一些信息: 我的抓取工具的目的是下載整個頁面(以html,png或使用庫轉換爲txt)。

    0熱度

    1回答

    ,下面的錯誤在控制檯中顯示出來失敗:PERMISSION_DENIED (節點:12540)UnhandledPromiseRejectionWarning:未處理的承諾拒絕(拒絕ID:1):錯誤:PERMISSION_DENIED:權限被拒絕 var firebase = require("firebase"); var config = { apiKey: "AIzaSyCJyak

    1熱度

    1回答

    基於Alvin Bunk文章link to article我想創建一個web-cralwer,它登錄到一個網站然後提交一個表單。 我的問題是,在該網站上有一個Ajax塊,在單擊和空鏈接後生成一些輸入,我需要填寫,所以我需要點擊某個空鏈接或手動插入輸入。 我改變了下面的代碼在很多方面,試圖使其工作,但對訪問功能我被困 我得到未捕獲的錯誤:空調用一個成員函數訪問() <?php require 'v

    1熱度

    1回答

    我想刮一個網站。它有下拉菜單。在下拉菜單中沒有選擇任何內容時,搜索按鈕將變爲灰色/不可點擊。按鈕的源代碼是這樣的: <br> <span class="search search-disabled" id="by_item">Search</span> <span class="reset search-disabled" id="reset_item">Reset</span> <div

    0熱度

    1回答

    java.net.SocketException: Software caused connection abort: recv failed at java.net.SocketInputStream.socketRead0(Native Method) at java.net.SocketInputStream.socketRead(Unknown Source) at java.net

    0熱度

    1回答

    我在多個TYPO3實例(配置和TYPO3版本[7.6.20]總是相同)上配置了搜尋器(版本5.1.3)。有時它的工作,有時我有這個問題: 畢竟Configurations所有我想要開始在Web - >信息 - > Site Crawler - >開始爬行爬網。 當我在pagetree中選擇一個頁面並點擊:然後它加載10 - 15分鐘,我得到一個服務器錯誤(500)。 這使得無法使用爬蟲爬取頁面。

    0熱度

    2回答

    我在提取中文文本並將其寫入文件時遇到了問題。 str = "全球緊張致富豪財富縮水 貝索斯丁磊分列跌幅前兩位"; f=open('test.txt','w'); f.write(str); 上面的代碼運行良好。同時在下面的代碼中寫入文件以顯示亂碼。 import requests; from bs4 import BeautifulSoup f=open('data.txt','w'

    0熱度

    1回答

    所以我想用node.js x-ray抓取框架來抓取一些內容。雖然我可以從單個頁面獲取內容,但僅供一名員工使用,但無法讓我瞭解如何獲得所有員工。 工作爲例,但返回我的第一個員工: const request =require('request'); const Xray=require('x-ray'); var x = Xray(); x('http://www.viadeo.com/fr/