2014-10-08 128 views
2

對不起,這個奇怪的「問題標題」,但我想不出一個合適的標題。命名實體識別:對於新/最新實體

進出口新的NLP概念,所以我用NER演示(http://cogcomp.cs.illinois.edu/demo/ner/results.php)。現在的問題是,「我如何使用NER完成這些標記的方式」如何&「。我的意思是這些答案或推論可以從這些在某些羣體中被標記的命名實體 - 位置,人員,組織等等得出。如果我有一個擁有全新公司名稱,地點等名稱的數據,那我該怎麼去爲這些數據做這些NER標記?

請不要downvote或阻止我,我只是需要完蛋了指導/專家的建議。閱讀一個概念是另一回事,同時能夠知道什麼時候應用它是另一回事,這就是我要求指導的地方。萬分感謝 !!!

一個從演示片段: -

狗已經在貨運領域一段時間以來一直使用,但剛剛被最近在 乘客區域在LOC紐瓦克LOC JFK機場介紹。 LOC JFK有一隻狗LOC紐瓦克有一個 極少數,PER Farbstei n說。

回答

3

通常NER是管道中的一步。例如,一旦所有實體都被加了標籤,如果你有很多句子,如[PER John Smith], CEO of [ORG IBM] said...,那麼你可以建立一個公司和首席執行官的表格。這是knowledge base population的一種形式。

還有很多其他用途的,不過,這取決於你已經擁有的數據的類型和所要完成的任務。

+0

因此,例如,香港專業教育學院得到了人們談論蘋果手機100萬個鳴叫,我想將它們歸類爲信息共享者,在討論價格,詢問供應情況等,然後在這種情況下,我想這不會是更大的知識庫。此外,在這種情況下,NER如何幫助我成爲解決這個問題的中間步驟?謝謝 – shalini 2014-10-08 18:19:11

+1

我不確定NER會在這個用例中幫助你。你試圖將其稱爲文檔分類。 http://en.wikipedia.org/wiki/Document_classification 特別是如果你可以選擇足夠小的一組類別。你可以在你的分類器中使用NER作爲一個功能,但是如果你已經知道例如你所有的推文都是關於蘋果的,那麼我不知道你會從中得到什麼。 – aelfric5578 2014-10-08 18:24:32

+0

Thansk aelfric,這就是爲什麼當sumbdy建議我時我對NER感到困惑。雖然我的情況只是3/4類別的推文分類,但在NER有幫助時也可以提供一些情況。即什麼樣的probs是有用的和在哪裏使用它,它是如何協助等。謝謝 – shalini 2014-10-08 18:37:19

2

我覺得有兩個部分,你的問題:

什麼是NER的目的是什麼?

這是一個很大的問題,它通常用於信息檢索(IR)任務,如索引,文檔分類,知識庫人口(KBP)以及許多其他許多人(語音識別,翻譯)......很難找出一個廣泛的名單...

我們怎能NER擴展到也承認新/未知的實體?

E.g.我們如何識別NER系統從未見過的實體。一目瞭然,兩種解決方案很可能起作用:

  • 假設您有一些定期更新的鏈接數據庫:系統可能依賴於通用類別。例如,讓我們說「Marina Silva」出現在新聞中,現在添加到與「POLITICIAN」類別相關的詞典中。由於該系統知道每個POLITICIAN應該被標記爲人,即不依賴詞彙項目而是依賴於類別,並且因此將「Marina Silva」標記爲PERS命名實體。您不必重新訓練整個系統,只需更新其詞典。
  • 使用形態和上下文線索,該系統可以猜測從未被看見(和不在詞彙)新命名的實體。例如,「總統候選人XXX YYY」(或「Marina YYY」)等規則會猜測「XXX YYY」(或「YYY」)是PERS(或PERS的一部分)。這在大多數情況下涉及概率建模。

希望這有助於:)

+0

謝謝朋友,這是偉大的見解。你能不能幫我在這兩點上提供一些相關的「教程/如何/講座」。就Ive搜索而言,我只能得到一些非常難以理解的研究文章。所以請如果你能,那是我唯一需要的幫助。謝謝朋友! – shalini 2014-10-12 15:47:03

+0

我相信這篇文章http://www.cs.washington.edu/research/projects/aiweb/media/papers/tmpcLeDnr.pdf給出了一個相當大且易於理解的命名實體識別目標和技術的概述 – eldams 2014-10-16 14:55:28