web-crawler

0熱度

1回答

成功連接的nutch 1.12使用Solr 6.5和抓取的未驗證的網站。在嘗試抓取經過身份驗證的網站時，我無法繼續處理它。任何人都可以請幫助克服它。錯誤： java.lang.RuntimeException: java.lang.IllegalArgumentException: No form exists: user-login at org.apache.nutch.proto

0熱度

1回答

如何在不對任何數字進行硬編碼的情況下自動執行爬網？

我已經寫了一個腳本使用python與硒從網頁上颳去餐館的名字。如果我對我想分析的數量進行硬編碼，它工作的很好。該頁面有延遲加載過程，並在每個滾動條中顯示40個名稱。但是，我的腳本可以處理它。我想在我的腳本中唯一改進的地方是我不希望對數字進行硬編碼;相反，我希望它能夠檢測到自己有多少人併成功解析它。希望有人來幫忙。下面是代碼： from selenium import webdriver impo

0熱度

1回答

從scrapy中的多個類獲取文本

我想從網站抓取數據。我用這個代碼 import scrapy class KamusSetSpider(scrapy.Spider): name = "kamusset_spider" start_urls = ['http://kbbi.web.id/abadi'] def parse(self, response): SET_SELECTOR =

0熱度

1回答

使用scrapy抓取數據時刪除符號

我想通過scrapy從網站獲取文本。這是示例代碼： def parse(self, response): for kamusset in response.css("div#d1"): text = kamusset.css("div b::text").extract() print(dict(text=text)) 這是結果：我想刪除 ''符號和每

1熱度

1回答

通過請求，CURL和BeautifulSoup形成wsj的廢品文章

我是wsj的付費會員，我試圖取消文章以執行我的NLP項目。我以爲我保留了會議。 rs = requests.session() login_url="https://sso.accounts.dowjones.com/login?client=5hssEAdMy0mJTICnJNvC9TXEw3Va7jfO&protocol=oauth2&redirect_uri=https%3A%2F%2Fa

0熱度

1回答

使用多線程加速由beautifulsoup4和python編寫的網絡爬蟲

我正在編寫一個網絡爬蟲來提取網站的信息。但是，由於我使用美麗的湯4在窗口上提取大量數據，因此爬取速度非常緩慢。任何人都可以告訴我如何在我的情況下使用多線程。如果你想幫助我，非常感謝你。我的代碼如下： import requests from html.parser import HTMLParser from bs4 import BeautifulSoup import re impor

0熱度

1回答

安裝docker後運行scrapy時出錯

我想使用scrapy從動態內容中抓取。我從互聯網上得到我必須安裝docker。但安裝後，我運行時總是出錯： scrapy runspider example.py 或其他scrapy命令。然後我卸載docker。但錯誤仍然顯示。這是錯誤：然後我嘗試安裝pypiwin32，有錯誤也：如何解決呢？

0熱度

1回答

爲什麼scrapy yield.Request（）沒有遞歸？

這是我的代碼？ class QuotesSpider(scrapy.Spider): name = 'quotes' allowed_domains = ['quotes.toscrape.com/'] start_urls = ['http://quotes.toscrape.com//'] def parse(self, response): quotes = respon

0熱度

1回答

Scrapy CLI輸出不工作

我試圖運行通過CLI使用自定義分隔符scrapy出口這樣CSV_DELIMITER參數： scrapy runspider beneficiari_2016.py -o beneficiari_2016.csv -t csv -a CSV_DELIMITER="\n" 出口完美的作品，但是分隔符仍然是默認的逗號（「」）。請讓我知道，如果你有任何想法如何修復。謝謝！的代碼： import sc

0熱度

1回答

Python使用請求登錄網站

def login_form(login_url, passkey): html = requests.get(login_url) response = requests.post(login_url, data = passkey, cookies = html.cookies) return response passkey = { "usern