簡單的二進制文本分類

我尋求最有效和最簡單的方法來將800k +學術文章分類爲與定義的概念空間相關的（1）或不相關的（0）（這裏：learning as it relates to work）。簡單的二進制文本分類

數據是：標題&抽象（平均= 1300個字符），可以使用

任何方法或甚至組合，包括監督的機器學習和/或通過建立產生一些閾值列入特性，其中其他。

方法可以利用key terms that describe the conceptual space，雖然單純的頻率計數太不可靠。可能的途徑可能涉及潛在的語義分析，n-gram，..

生成訓練數據對於最多1％的語料庫可能是現實的，儘管這已經意味着手動編碼8,000篇文章（1 =相關，0 =無關），這足夠嗎？

具體的想法和一些簡短的推理非常感謝，所以我可以做出明智的決定如何進行。非常感謝！

你如何定義相關性？僅考慮1％的訓練語料是不合理的。你有沒有註釋你的語料庫？我指的是每個文件的相關/不相關標籤。 –

的幾點建議：

運行LDA和（根據不同主題的數據集覆蓋的20個話題）獲取文檔的主題和話題字分佈說。將與相關性最高的主題相關的最低r％的文檔分配爲不相關，並將低nr％分配爲不相關。然後在這些帶標籤的文檔上訓練分類器。
只用袋子的單詞，並檢索與您的查詢（您的概念空間）最接近的r個相關和相關的borr nr百分比，並對它們進行分類器訓練。
如果您有引文，您可以通過標記極少數論文在網絡圖上運行標籤傳播。
不要忘記通過將標題詞更改爲title_word1來使標題詞與您的抽象詞不同，以便任何分類器可以對它們施加更多權重。
將文章聚合成100個羣集，然後選擇然後手動標記這些羣集。根據您的語料庫中不同主題的覆蓋範圍選擇100。您也可以對此使用分層聚類。
如果相關文檔的數量少於不相關的文檔，那麼最好的方法是找到您的概念空間的最近鄰居（例如，使用在Lucene中實現的信息檢索）。然後，您可以手動記錄排名結果，直到您感覺文檔不再相關。

這些方法大多是自舉或弱監督文本分類方式中，約你可以多文學。

2016-12-02 02:49:35 Ash

回答