0
我試圖在Jsoup創建簡單的爬蟲。它會查找網站源代碼中的所有鏈接,並最終跟隨它們,再次搜索每個鏈接中的新鏈接等等。Jsoup連接分裂在多個線程
問題是在深入瞭解兩個重定向之後,計算時間很長。
這是它是如何工作的僞代碼:
function follow_links(String[] links)
{
for(int i=0; i<=links.amount-1; i++)
{
Document doc = Jsoup.connect(links[i]);
String[] newlinks = new String[max];
newlinks = parse(doc);
...
}
}
我的問題是,代碼是否會更快,如果我創建了每個循環迭代新的線程,因此所有連接會並行建立。連接函數返回需要一些時間,所以我想隊列已經形成。線程可以解決這個問題嗎?