2013-02-09 85 views
0

我正在通過the Python NLTK book。我通過運行:fdist=FreqDist(text1)做了Moby Dick中單詞的頻率分佈,其中text1是Moby Dick的NLTK Text對象,即小說中的單詞列表。現在我有一個頻率分佈對象:如何在不同情況下基於相同的單詞組合數組?

>>> fdist1 
<FreqDist with 260819 outcomes> 

然而,許多那些在名單是在不同的情況下,同樣的話,像「一」的大寫和小寫的:

>>> fdist1['a'] 
4569 
>>> fdist1['A'] 
167 

如何我可以結合這兩個詞(和其他單詞分開列出)嗎?

+2

爲什麼在將其添加到頻率分佈之前,您只需將所有內容小寫?我認爲在這種情況下大寫並不重要? – Julio 2013-02-09 20:00:13

回答

0

您可以創建一個新的字典,遍歷FreqDict並小寫密鑰。像這樣 -

lc_dict = defaultdict(int) 
for (key, value) in fdist1.items(): 
    lc_dict[key.lower()] = lc_dict[key.lower()] + value 
相關問題