2016-11-21 113 views
3

我已經創建了文本語義搜索引擎。但是,我無法找到已標記的數據集,以便我可以評估系統的信息檢索。文本信息檢索結果分析數據集(文本)

是否有任何公開的可用文件(文本)被標記。因爲我需要文本文檔來評估信息檢索結果。 (召回,精度,F1值...)

謝謝。

回答

2

我在這方面做研究。在我所有的研究中,我使用了AOL dataset,它包括從三個月(2006年3月1日至2006年5月31日)從約650k用戶收集的〜20M網頁查詢。數據按匿名用戶ID排序並依次排列。數據組包括{AnonID, Query, QueryTime, ItemRank, ClickURL}。更多細節可以在上面提到的鏈接中找到。我很想知道你是如何實現的,如果可能的話,分享你的引擎代碼。我也很想知道你的搜索引擎中AOL數據集的表現。

你可以在我的git repository找到數據集。謝謝!