web-crawler

    0熱度

    1回答

    成功連接的nutch 1.12使用Solr 6.5和抓取的未驗證的網站。在嘗試抓取經過身份驗證的網站時,我無法繼續處理它。任何人都可以請幫助克服它。 錯誤: java.lang.RuntimeException: java.lang.IllegalArgumentException: No form exists: user-login at org.apache.nutch.proto

    0熱度

    1回答

    我已經寫了一個腳本使用python與硒從網頁上颳去餐館的名字。如果我對我想分析的數量進行硬編碼,它工作的很好。該頁面有延遲加載過程,並在每個滾動條中顯示40個名稱。但是,我的腳本可以處理它。我想在我的腳本中唯一改進的地方是我不希望對數字進行硬編碼;相反,我希望它能夠檢測到自己有多少人併成功解析它。希望有人來幫忙。下面是代碼: from selenium import webdriver impo

    0熱度

    1回答

    我想從網站抓取數據。我用這個代碼 import scrapy class KamusSetSpider(scrapy.Spider): name = "kamusset_spider" start_urls = ['http://kbbi.web.id/abadi'] def parse(self, response): SET_SELECTOR =

    0熱度

    1回答

    我想通過scrapy從網站獲取文本。這是示例代碼: def parse(self, response): for kamusset in response.css("div#d1"): text = kamusset.css("div b::text").extract() print(dict(text=text)) 這是結果: 我想刪除 ''符號和每

    1熱度

    1回答

    我是wsj的付費會員,我試圖取消文章以執行我的NLP項目。我以爲我保留了會議。 rs = requests.session() login_url="https://sso.accounts.dowjones.com/login?client=5hssEAdMy0mJTICnJNvC9TXEw3Va7jfO&protocol=oauth2&redirect_uri=https%3A%2F%2Fa

    0熱度

    1回答

    我正在編寫一個網絡爬蟲來提取網站的信息。但是,由於我使用美麗的湯4在窗口上提取大量數據,因此爬取速度非常緩慢。任何人都可以告訴我如何在我的情況下使用多線程。如果你想幫助我,非常感謝你。我的代碼如下: import requests from html.parser import HTMLParser from bs4 import BeautifulSoup import re impor

    0熱度

    1回答

    我想使用scrapy從動態內容中抓取。我從互聯網上得到我必須安裝docker。但安裝後,我運行時總是出錯: scrapy runspider example.py 或其他scrapy命令。然後我卸載docker。但錯誤仍然顯示。這是錯誤: 然後我嘗試安裝pypiwin32,有錯誤也: 如何解決呢?

    0熱度

    1回答

    這是我的代碼? class QuotesSpider(scrapy.Spider): name = 'quotes' allowed_domains = ['quotes.toscrape.com/'] start_urls = ['http://quotes.toscrape.com//'] def parse(self, response): quotes = respon

    0熱度

    1回答

    我試圖運行通過CLI使用自定義分隔符scrapy出口這樣CSV_DELIMITER參數: scrapy runspider beneficiari_2016.py -o beneficiari_2016.csv -t csv -a CSV_DELIMITER="\n" 出口完美的作品,但是分隔符仍然是默認的逗號( 「」)。 請讓我知道,如果你有任何想法如何修復。謝謝! 的代碼: import sc

    0熱度

    1回答

    def login_form(login_url, passkey): html = requests.get(login_url) response = requests.post(login_url, data = passkey, cookies = html.cookies) return response passkey = { "usern