2009-01-16 95 views
21

我需要我可以找到的幾種語言處理操作中最詳盡的英語單詞列表,但我無法在互聯網上找到具有足夠好質量的任何內容。自然英語單詞

英語裏有1,000,000個單詞,包括外文和/或技術詞彙。

你能否建議這樣一個來源(或接近500k字),可以從互聯網下載,也許有點分類?你使用什麼輸入語言處理應用程序?

+1

如果你的字典有一百萬字,你可以打賭,普通單詞的拼寫錯誤會被誤認爲是一些不起眼的百萬字。這可能會影響這種大型字典的用處。 – 2009-01-16 14:42:17

+0

@Germstorm:你從哪裏得到這個100萬的號碼?你有具體的參考,還是這個傳聞? – 2009-01-28 00:15:31

+0

我剛剛在某處聽到它,我無法驗證它 – Germstorm 2009-06-12 19:26:07

回答

25

Kevin's wordlists是我知道的最好的單詞列表。

WordNet是更好,如果你想知道的事情是名詞,動詞等,同義詞等

3

誰讓你有百萬字?根據Wikipedia,牛津英語詞典只有600,000。 OED試圖包含所有使用的技術和俚語術語。

4

我在普渡大學進行了受控/自然英語和語言領域知識處理方面的研究。

我會看看這個項目:http://attempto.ifi.uzh.ch/site/description/這是一個項目,以幫助建立一個受控制的自然英語。

您可以下載他們的整個單詞詞典:http://attempto.ifi.uzh.ch/site/downloads/files/clex-6.0-080806.zip它有約100,000個自然英語單詞。

您也可以爲特定領域的單詞提供您自己的詞典,這就是我們在我們的研究中所做的。他們提供網絡服務來解析和格式化自然英文文本。

0

有沒有按照這個 - oxford太多基地字(171k這是我記得在大學裏CS程序被告知 但是,如果包括所有形式的words-的則大幅上升。

這就是說,爲什麼不自己做一個?找一個維基百科的轉儲和分析它,並建立了一套你遇到的所有令牌。

期待拼寫錯誤雖然 - 就像所有的事情一樣rowd-sources將會出現錯誤。