如何使用edu.uci.ics.crawler4j.crawler.WebCrawler發現所有HTML元標記

我正在完成一個研究項目，以編目用於描述科學和學術期刊的所有HTML元標記，例如，都柏林核心，開放圖形，棱鏡，引文，biblio等。如何使用edu.uci.ics.crawler4j.crawler.WebCrawler發現所有HTML元標記

我使用edu.uci.ics.crawler4j.crawler.WebCrawler並且它有少量種子URL的工作。

我的問題是我需要一個更大的種子URL列表。

我有什麼選擇？

我必須手動搜索網絡來尋找期刊網站，還是可以使用類似於crawler4j的內容來發現種子網站？

2017-05-06 Hector

生成良好種子是Web-Crawling字段的一個常見問題，特別是字段專用的任務（例如只看學術期刊）。在一般情況下，有幾個選項：

使用開放的Web目錄（如DMOZ，...）或期刊名錄（例如Reuters List）收穫預歸類種子點知名期刊。
理論上，大型搜索引擎已經佔據了WWW的很大一部分。您可以嘗試執行半自動搜索預定義的查詢並處理匹配。然而，這可能導致在一些更復雜的技術，網絡爬行（如focused crawling）

的選擇是：

2017-05-12 08:49:50 rzo

回答