2

我聽說Google主辦(或將主辦)網絡分類競賽,並且他們提供了大量(170k +文檔)網站數據集,這些網站分爲多個類別(體育,計算機,科學等等)我試着在2009年到2011年的夏季代碼網站中尋找,但沒有找到任何東西。有人知道我可以在哪裏獲得該數據集?Google夏季編碼:網絡分類數據集

回答

2

我想我找到了它(雖然我不確定數據是否由谷歌提供):the ECML/PKDD 2010 Discovery Challenge Data Set包含22個培訓標籤(即關於內容的標籤),URL和超鏈接,基於內容和鏈接的網頁垃圾郵件功能,術語頻率和自然語言處理功能。

+0

標籤不包含類別。請參閱https://dms.sztaki.hu/node/351 – 2017-08-23 11:21:49