成功連接的nutch 1.12使用Solr 6.5和抓取的未驗證的網站。在嘗試抓取經過身份驗證的網站時,我無法繼續處理它。任何人都可以請幫助克服它。 錯誤: java.lang.RuntimeException: java.lang.IllegalArgumentException: No form exists: user-login
at org.apache.nutch.proto
我正在編寫一個網絡爬蟲來提取網站的信息。但是,由於我使用美麗的湯4在窗口上提取大量數據,因此爬取速度非常緩慢。任何人都可以告訴我如何在我的情況下使用多線程。如果你想幫助我,非常感謝你。我的代碼如下: import requests
from html.parser import HTMLParser
from bs4 import BeautifulSoup
import re
impor