計算文件中的字長

所以我的函數應該打開一個文件並計算字長並給出輸出。例如，計算文件中的字長

許多（ 'SAMPLE.TXT'）

字長度的1：2個

字長度2：7個

單詞：長度爲3的6個

詞長度4：6

我的sample.txt文件包含：這是一個測試文件。一個字的長度是多少？長度有三個單詞？我們應該弄明白！函數可以做到這一點嗎？

我的編碼到目前爲止，

def many(fname): infile = open(fname,'r') 
text = infile.read() 
infile.close() 
L = text.split() 
L.sort 
for item in L: 
    if item == 1: 
     print('Words of length 1:', L.count(item))

誰能告訴我什麼，我做錯了。我稱這個函數沒有任何反應。顯然是因爲我的編碼，但我不知道該從哪裏出發。任何幫助將很好，謝謝。

來源

2011-02-04 97834657647563

如果蟒蛇我以爲這？ – birryree 2011-02-04 06:22:50

是的，抱歉忘了添加標籤。 – 97834657647563 2011-02-04 06:27:10

你有什麼期望在這裏

if item == 1:

這裏

L.count(item)

又是什麼實際發生？使用調試器並查看變量值或將其打印到屏幕上。

來源

2011-02-04 06:25:42 BlueDog

您想要獲取文件中長度（1,2,3,4，...字符）的列表以及具有此長度的單詞的出現次數。

因此，直到L = text.split()這是一個很好的方法。現在看一下Python中的字典，這將允許您存儲上述數據結構並遍歷文件中的單詞列表。只是一個提示...

來源

2011-02-04 07:12:14 eumiro

讓我們一步一步分析你的問題。

您需要：

檢索所有從文件
迭代的話在所有的話每次都發現長度的字N
輸出時間
增加計數器N結果

您已經完成了第1步：

def many(fname): 
    infile = open(fname,'r') 
    text = infile.read() 
    infile.close() 
    L = text.split()

然後你（嘗試）排序的話，但它沒有用。你會按字母數字排序，所以它對你的任務沒有用。

相反，讓我們定義一個Python dictionary持有的話

lengths = dict()

@sukhbir在註釋中使用Counter類正確的建議，我鼓勵你去尋找它的計數，但我在這個例子中，我會堅持使用傳統詞典，因爲我覺得在探索圖書館之前熟悉語言的基本知識非常重要。

讓我們繼續步驟2：

for word in L: 
     length = len(word)

對於列表中的每一句話，我們賦予變量length當前單詞的長度。讓我們來看看如果計數器已經爲我們的長槽：

 if length not in lengths: 
      lengths[length] = 0

如果沒有遇到長度length的話，我們分配該插槽和我們設置爲零。我們終於可以執行步驟3：

 lengths[length] += 1

最後，我們遞增字的計數器，用1單位的當前長度。

在該函數結束時，您會發現lengths將包含字長爲的地圖 - >該長度爲的字數。讓我們驗證通過打印其內容（第4步）：

for length, counter in lengths.items(): 
     print "Words of length %d: %d" % (length, counter)

如果您複製並粘貼我寫的代碼（尊重縮進！）你會得到你所需要的答案。

我強烈建議你通過Python tutorial。

來源

2011-02-04 08:49:09

由於這是功課，我會在這裏發表簡短的解決方案，並把它作爲鍛鍊弄清楚它做什麼，以及爲什麼它的工作原理:)

>>> from collections import Counter 
>>> text = open("sample.txt").read() 
>>> counts = Counter([len(word.strip('?!,.')) for word in text.split()]) 
>>> counts[3] 
7

來源

2011-02-04 09:07:50 Kimvais

的正則表達式庫也可能會有所幫助，如果有點矯枉過正。一個簡單的詞匹配重可能是這樣的：

import re 
f = open("sample.txt") 
text = f.read() 
words = re.findall("\w+", text)

詞是那麼的列表...話:)

然而，這將無法正常匹配的話就像「不是」和「我」 m'，因爲\ w只匹配字母數字。本着這種作業的精神，我想我會離開感興趣的讀者，但Python Regular Expression文檔是一個很好的開始。

然後我通過長度計算這些話的方法是這樣的：

occurrence = dict() 
for word in words: 
    try: 
     occurrence[len(word)] = occurrence[len(word)] + 1 
    except KeyError: 
     occurrence[len(word)] = 1 
print occurrence.items()

凡詞典（發生）用於存儲字長和它們在你的文字出現。 try：和except：關鍵字處理的是我們第一次嘗試在字典中存儲特定長度的單詞，在這種情況下，字典不會被要求檢索不知道的東西，除此之外：拾取作爲結果拋出的異常並存儲該單詞長度的第一次出現。最後一行打印字典中的所有內容。

希望這有助於:)

來源

2011-02-05 11:42:52 mrmagooey

也許也是這個：

>>> s 
'This is a test file. How many words are of length one? How many words are of length three? We should figure it out! Can a function do this?' 
>>> {x:[len([c for c in w ]) for w in s.split()].count(x) for x in [len([c for c in w ]) for w in s.split()] } 
{1: 2, 2: 6, 3: 5, 4: 6, 5: 4, 6: 5, 8: 1}

來源

2014-01-18 23:22:10

計算文件中的字長

回答

相關問題