5

對於現有的文本分類(監督)技術,爲什麼我們不把文本中的命名實體(NE)作爲培訓和測試中的一項功能?你認爲我們可以通過使用NE來提高精度嗎?命名實體作爲文本分類中的一項功能?

+0

請舉例說明你想說什麼 – Yavar 2012-04-09 20:01:26

+0

我的意思是,對於我要訓練和測試的每個文檔,如果使用NE的數量(PERS = x,LOC = y,ORG = z)作爲要素以及正常文本(文檔)分類功能? – KillBill 2012-04-10 10:35:44

+1

+1:好問題 – Yavar 2012-04-10 11:46:52

回答

1

這很大程度上取決於您所在的域。您必須根據域定義功能。在搜索引擎中說,你正在努力學習排名問題,產生一個動態的排名,NE的不會給你任何好處。它更大程度上取決於您正在工作的領域以及定義的輸出分類標籤(監督式學習)。

現在說你正在分類有關足球或電影或Polictics等文件。在這種情況下,命名實體可以工作。我會在這裏給你一個例子,說你正在使用神經網絡將文件分類爲足球,電影,政治等。現在說一份文件來了「梅西被邀請出席」社交網絡「的總理,也出席包括傑西·艾森伯格,安德魯·加菲爾德和賈斯汀·汀布萊克在內的劇組成員和演員。「這裏,命名實體(輸入功能)和電影(輸出定義)之間的連接將更加強大,因此它將被歸類爲電影上的文檔。

另一個例子,說我們的文件是「湯姆·克魯斯被描繪梅西的角色在電影‘最後的足球比賽。’這裏說到的利益說你的神經網絡瞭解到,當一個演員和足球運動員走到一起的一個文件很有可能是一部電影,它又依賴於數據和訓練,也可能是其他方式(但這就是學習所有關於;看到過去的數據)

所以我的答案會請嘗試一下,沒有人阻止你將命名實體作爲功能,它可能有助於你正在工作的域名。

+0

嘿非常感謝你的回答。這有點提高了我的能量:)是的,我專注於一個像你說的那樣狹窄的領域,比如棒球,足球。我擔心的是,即使在傳統的基於術語頻率(TF)的文本(文檔)分類中,我們是不是隱含地使用NE?因爲我們使用的是術語,而NE是術語? – KillBill 2012-04-10 11:45:41

+0

這是另一種傳統方法:http://www.miislita.com/information-retrieval-tutorial/lsi-keyword-research-fast-track-tutorial.pdf – Yavar 2012-04-10 12:07:59

+0

這是無監督(集羣)學習,他們使用LSI來降低特徵向量的維數。你看到這裏納入NER的方法嗎? – KillBill 2012-04-10 12:25:19