我尋求最有效和最簡單的方法來將800k +學術文章分類爲與定義的概念空間相關的(1)或不相關的(0)(這裏:learning as it relates to work)。簡單的二進制文本分類
數據是:標題&抽象(平均= 1300個字符),可以使用
任何方法或甚至組合,包括監督的機器學習和/或通過建立產生一些閾值列入特性,其中其他。
方法可以利用key terms that describe the conceptual space,雖然單純的頻率計數太不可靠。可能的途徑可能涉及潛在的語義分析,n-gram,..
生成訓練數據對於最多1%的語料庫可能是現實的,儘管這已經意味着手動編碼8,000篇文章(1 =相關,0 =無關) ,這足夠嗎?
具體的想法和一些簡短的推理非常感謝,所以我可以做出明智的決定如何進行。非常感謝!
你如何定義相關性?僅考慮1%的訓練語料是不合理的。你有沒有註釋你的語料庫?我指的是每個文件的相關/不相關標籤。 –