2017-05-06 97 views
0

我正在完成一個研究項目,以編目用於描述科學和學術期刊的所有HTML元標記,例如,都柏林核心,開放圖形,棱鏡,引文,biblio等。如何使用edu.uci.ics.crawler4j.crawler.WebCrawler發現所有HTML元標記

我使用edu.uci.ics.crawler4j.crawler.WebCrawler並且它有少量種子URL的工作。

我的問題是我需要一個更大的種子URL列表。

我有什麼選擇?

我必須手動搜索網絡來尋找期刊網站,還是可以使用類似於crawler4j的內容來發現種子網站?

回答

3

生成良好種子是Web-Crawling字段的一個常見問題,特別是字段專用的任務(例如只看學術期刊)。在一般情況下,有幾個選項:

  • 使用開放的Web目錄(如DMOZ,...)或期刊名錄(例如Reuters List)收穫預歸類種子點知名期刊。

  • 理論上,大型搜索引擎已經佔據了WWW的很大一部分。您可以嘗試執行半自動搜索預定義的查詢並處理匹配。然而,這可能導致在一些更復雜的技術,網絡爬行(如focused crawling

的選擇是:

  • 使用crawler4jReuters收集雜誌的名稱爲自己喜歡的領域去弄清楚。
  • 爲此,您需要查看日記列表,例如business journal list。日記名稱始終位於h4標記中,可以輕鬆提取這些標記。
  • 提取名稱後,您只需找出相應的URL即可。爲此,您可以使用上面的搜索引擎方法。第一次打擊的可能性很大,應該是雜誌的網頁。
相關問題