2014-12-07 57 views
0

我正在解析一大堆逗號分隔的文件。每個文件包含數千行,每行具有相同數量的字段,並填充相似或不同的字符串。我正在解析這些文件,並將每行保存爲一個Python列表。我正在尋找關於如何在python中解析所有捕獲的列表的想法,例如,返回項[1]中的唯一字符串的數目,或者列表中的任何項目。解析大文件,計算唯一字符串的數量?

我應該怎麼辦?感謝您閱讀我的第一篇文章! :)

回答

0

如果你正在尋找要簡潔,你可以利用collections.Countermap,並operator.itemgetter

num_unique_in_first_column = len(collections.Counter(map(operator.itemgetter(0), rows))) 

獎勵:對於龐大的數據量,這裏不僅可以將行不適合內存,但是這組唯一值也沒有,並且可以使用​​來估計唯一值的數量。你幾乎肯定沒有足夠的數據來證明使用它,但我覺得它是一個有趣的離題。

+0

非常感謝。祝你晚安! :) – akagera 2014-12-07 07:52:39