我正在尋找一個免費標記語料庫系統來培訓名稱實體識別。我發現的大部分(如紐約時報的)都很貴,而且沒有開放。誰能幫忙?免費標記語料庫進行命名實體識別
回答
dbPedia是開放和自由
DBpedia的是維基百科建立,這是一個非常大的語料庫。在所有dbPedia titles dump上構建涉及rdfs:label
的三元組的Lucene索引。
作爲其他答案狀態之一,DBpedia不是帶標籤的語料庫。 – 2012-07-12 20:32:54
2012年(和今天)我的評論是真實的,但這可能在未來發生變化。如果您對基於DBpedia的語料庫感興趣,您可能需要遵循Open Extraction Challenge(http://wiki.dbpedia.org/textext)爲維基百科文本中的DBpedia生成NIF輸出。 – 2017-07-19 21:10:50
Python NLTK有權訪問nltk.corpus.conll2000
語料庫。調用conll2000.iob_words()
返回(單詞,詞類,IOB)三元組的列表,其中IOB是內部實體/外部實體/實體開始格式中的標籤。
新聞專線上下文中總共有大約25萬字。
我們是否也可以轉儲數據集以便在其他工具上使用它?例如GLample的[** Tagger **](https://github.com/glample/tagger)。 – user1412066 2017-01-04 08:15:27
CONLL2000不標記命名實體。 – alexis 2017-07-17 21:39:11
有在http://www.cs.technion.ac.il/~gabr/resources/data/ne_datasets.html
的CoNLL 2003語料庫,它是名單上的語料庫的列表,是免費的,可從http://www.cnts.ua.ac.be/conll2003/ner/(註釋)和NIST(文本)。
我們是否必須遵循填表格的程序,向NIST發送申請以獲取此[** link **](http://trec.nist.gov/data/reuters/reuters.html)中所述的數據集?或者有其他選擇嗎? – user1412066 2017-01-04 08:10:04
- 1. C# - 免費Offliine語音識別庫(SDK)
- 2. 爲Java命名實體識別庫
- 3. 使用條件隨機場進行命名實體識別
- 4. 指定實體識別的樣本大小黃金標準語料庫
- 5. StanfordNLP:ArrayIndexOutOfBoundsException用於命名實體識別
- 6. c#命名實體識別器工具
- 7. 聚焦命名實體識別(NER)?
- 8. 使用WEKA命名實體識別
- 9. 在Python中爲NLTK命名實體識別。識別NE
- 10. 免費的語言標識符服務?
- 11. 命名實體識別與NLTK或斯坦福NER使用自定義語料庫
- 12. 是否有命名實體識別的任何C#庫?
- 13. 命名實體識別:對於新/最新實體
- 14. 如何通過OpenNLP爲阿爾巴尼亞語實現命名實體識別?
- 15. 命名實體識別和解析之間的區別?
- 16. 免費圖標庫
- 17. 命名實體識別與Python/PHP的預設名稱列表
- 18. 我可以使用命名實體識別來識別Intranet頁面內容嗎?
- 19. 是否有免費的醫療或臨牀報告/語料庫?
- 20. 需要免費的英語字典或語料庫,最終爲MySQL數據庫
- 21. 使用Vowpal Wabbit命名實體識別出現以記憶訓練數據
- 22. 新聞文章和標題的免費文本挖掘語料庫
- 23. 計算實體在NLP中的置信度得分命名實體識別
- 24. 使用nltk將日期識別爲命名實體?
- 25. 用於命名實體識別的TensorFlow RNNs
- 26. 使用Python從個人Gazetter中命名實體識別
- 27. 政治領域中的命名實體識別
- 28. 命名實體識別數據和功能
- 29. 命名實體識別的計算精度和召回率
- 30. 命名實體識別在門使用LingPipe
在http://opendata.stackexchange.com/q/7250/1652(它沒有關閉)上提出了同樣的問題 – 2016-03-24 00:57:50