2011-11-17 51 views
1

我處理的文本摘要的一個問題,即給定文本的大塊(S),我想找到最有代表性的「主題」或文本的主題。爲此,我使用各種信息理論措施,如TF-IDF,殘餘IDF和點互信息爲我的語料庫創建一個「字典」。本詞典包含文中提到的重要詞彙。如何評估我的技術?

我手動篩選了整個50,000個TFIDF小節排序的短語列表,並手工挑選了2,000個短語(我知道!花了15個小時來做​​到這一點......),這些都是基本事實,即這些都很重要當然。現在,當我用這個字典作爲字典並對我的文本進行簡單的頻率分析並提取top-k短語時,我基本上看到了這個主題,我同意我所看到的。

現在,我怎麼評價這種做法?這裏沒有涉及機器學習或分類。基本上,我使用了一些NLP技術來創建一本字典,並單獨使用字典來進行簡單的頻率分析,給我我正在尋找的主題。然而,我可以爲我的系統做一個正式的分析來衡量它的準確性或其他什麼嗎?

回答

1

我不是機器學習方面的專家,但我會用cross-validation。如果您使用例如1000頁的文字來「訓練」的算法(有一個「循環的人類」,但沒問題),那麼你可以採取另一種幾百測試頁面,並使用您的「top-K短語算法」,找到「話題「或」主題「。該比測試頁面,在那裏你與算法的結果同意給你的你的方法如何執行(有些主觀)指標。

+0

如果我理解你的權利,你有一個軟件,它可以分析頻率文本頁面,並給你的關鍵字 - 這意味着你確實有幾百頁的算法:)投擲,並收集每個關鍵詞集合。然後閱讀每個頁面,並確定關鍵字設置是否正確描述了文本的主題。爲了避免個人偏見,請志願者評估設置爲1比10的關鍵字的好處。您也可以將文本和關鍵字放在網上,並使用衆包。 – kol

+0

+1有趣!現在唯一的問題是找到志願者這樣做,因爲它是一個非常特定於領域的問題(醫療),所以基礎衆包可能很難處理,因爲很難找到志願者。會找到一些好的衆包方法。感謝您的時間。 – Legend

+0

我會問醫學生。 - 歡迎您:) – kol