1

我尋求最有效和最簡單的方法來將800k +學術文章分類爲與定義的概念空間相關的(1)或不相關的(0)(這裏:learning as it relates to work)。簡單的二進制文本分類

數據是:標題&抽象(平均= 1300個字符),可以使用

任何方法或甚至組合,包括監督的機器學習和/或通過建立產生一些閾值列入特性,其中其他。

方法可以利用key terms that describe the conceptual space,雖然單純的頻率計數太不可靠。可能的途徑可能涉及潛在的語義分析,n-gram,..

生成訓練數據對於最多1%的語料庫可能是現實的,儘管這已經意味着手動編碼8,000篇文章(1 =相關,0 =無關) ,這足夠嗎?

具體的想法和一些簡短的推理非常感謝,所以我可以做出明智的決定如何進行。非常感謝!

+0

你如何定義相關性?僅考慮1%的訓練語料是不合理的。你有沒有註釋你的語料庫?我指的是每個文件的相關/不相關標籤。 –

回答

1

的幾點建議:

  1. 運行LDA和(根據不同主題的數據集覆蓋的20個話題)獲取文檔的主題和話題字分佈說。將與相關性最高的主題相關的最低r%的文檔分配爲不相關,並將低nr%分配爲不相關。然後在這些帶標籤的文檔上訓練分類器。

  2. 只用袋子的單詞,並檢索與您的查詢(您的概念空間)最接近的r個相關和相關的borr nr百分比,並對它們進行分類器訓練。

  3. 如果您有引文,您可以通過標記極少數論文在網絡圖上運行標籤傳播。

  4. 不要忘記通過將標題詞更改爲title_word1來使標題詞與您的抽象詞不同,以便任何分類器可以對它們施加更多權重。

  5. 將文章聚合成100個羣集,然後選擇然後手動標記這些羣集。根據您的語料庫中不同主題的覆蓋範圍選擇100。您也可以對此使用分層聚類。

  6. 如果相關文檔的數量少於不相關的文檔,那麼最好的方法是找到您的概念空間的最近鄰居(例如,使用在Lucene中實現的信息檢索) 。然後,您可以手動記錄排名結果,直到您感覺文檔不再相關。

這些方法大多是自舉弱監督文本分類方式中,約你可以多文學。