命名實體作爲文本分類中的一項功能？

對於現有的文本分類（監督）技術，爲什麼我們不把文本中的命名實體（NE）作爲培訓和測試中的一項功能？你認爲我們可以通過使用NE來提高精度嗎？命名實體作爲文本分類中的一項功能？

2012-04-09 KillBill

請舉例說明你想說什麼 – Yavar 2012-04-09 20:01:26

我的意思是，對於我要訓練和測試的每個文檔，如果使用NE的數量（PERS = x，LOC = y，ORG = z）作爲要素以及正常文本（文檔）分類功能？ – KillBill 2012-04-10 10:35:44

+1：好問題 – Yavar 2012-04-10 11:46:52

這很大程度上取決於您所在的域。您必須根據域定義功能。在搜索引擎中說，你正在努力學習排名問題，產生一個動態的排名，NE的不會給你任何好處。它更大程度上取決於您正在工作的領域以及定義的輸出分類標籤（監督式學習）。

現在說你正在分類有關足球或電影或Polictics等文件。在這種情況下，命名實體可以工作。我會在這裏給你一個例子，說你正在使用神經網絡將文件分類爲足球，電影，政治等。現在說一份文件來了「梅西被邀請出席」社交網絡「的總理，也出席包括傑西·艾森伯格，安德魯·加菲爾德和賈斯汀·汀布萊克在內的劇組成員和演員。「這裏，命名實體（輸入功能）和電影（輸出定義）之間的連接將更加強大，因此它將被歸類爲電影上的文檔。

另一個例子，說我們的文件是「湯姆·克魯斯被描繪梅西的角色在電影‘最後的足球比賽。’這裏說到的利益說你的神經網絡瞭解到，當一個演員和足球運動員走到一起的一個文件很有可能是一部電影，它又依賴於數據和訓練，也可能是其他方式（但這就是學習所有關於;看到過去的數據）

所以我的答案會請嘗試一下，沒有人阻止你將命名實體作爲功能，它可能有助於你正在工作的域名。

來源

2012-04-10 11:19:25 Yavar

嘿非常感謝你的回答。這有點提高了我的能量:)是的，我專注於一個像你說的那樣狹窄的領域，比如棒球，足球。我擔心的是，即使在傳統的基於術語頻率（TF）的文本（文檔）分類中，我們是不是隱含地使用NE？因爲我們使用的是術語，而NE是術語？ – KillBill 2012-04-10 11:45:41

這是另一種傳統方法：http://www.miislita.com/information-retrieval-tutorial/lsi-keyword-research-fast-track-tutorial.pdf – Yavar 2012-04-10 12:07:59

這是無監督（集羣）學習，他們使用LSI來降低特徵向量的維數。你看到這裏納入NER的方法嗎？ – KillBill 2012-04-10 12:25:19

命名實體作爲文本分類中的一項功能？

回答

相關問題