2016-08-11 69 views
0

該代碼循環遍歷nltk庫中的word.words()中的每個單詞,然後將該單詞推入數組中。然後它檢查數組中的每一個單詞,通過使用相同的庫來查看它是否是實際的單詞,並且不知何故許多單詞是不真實的,如「adighe」。這裏發生了什麼?nltk語料庫的Words.word()似乎包含奇怪的無效單詞

import nltk 
from nltk.corpus import words 

test_array = [] 
for i in words.words(): 
    i = i.lower() 
    test_array.append(i) 

for i in test_array: 
    if i not in words.words(): 
     print(i) 

回答

1

我不認爲這裏有任何神祕的事情發生。我發現的第一個這樣的例子是「Aani」,「對埃及神Thoth神聖的狗頭猿」。由於它是專有名詞,「Aani」在單詞列表中,「aani」不在。

根據dictionary.com,「Adighe」是「Adygei」的替代拼寫,它是另一個專有名詞,意思是俄羅斯的一個地區。既然它也是一種語言,我想你可能會說「adighe」也應該被允許。這個特定的單詞列表會爭辯說它不應該。

+0

啊,謝謝。不知道爲什麼我沒有嘗試刪除行i = i.lower()。不管怎麼說,還是要謝謝你。 –