我是python的新手,可以使用我可以獲得的任何幫助。我在一臺win7機器上,正在使用python 3.5(anaconda)遍歷多個CSV檢查每個文件中的整數值
我試圖遍歷文件夾中的多個CSV文件(10k +),檢查該文件中超過預定義閾值的任何值。
我想建立一個字典,或列表/元組(基本上是最類似於一個SQL表),使用文件名的子字符串作爲名稱字段的唯一標識符,並有另一列文件總數那些值超過了給定的閾值。
我不指望你們中的任何人爲我做這件事,因爲這是很好的做法,但我希望任何可能使這一點變得更容易的模塊建議。
我已經能夠檢查一個文件的值,但這只是大約10分鐘到這個任務,我不知道如何迭代通過多個文件和建立表等。謝謝!
import numpy as np
path = 'C:\\path'
file = 'file.csv'
with open(path+file) as f:
my_data = np.genfromtxt(path+file, delimiter = ",")
for data in my_data:
if -1 in my_data:
print("it sure is")
開始與一小部分的文件;獲得負載並檢查一個文件的運行狀況。然後只是迭代文件並收集數據。字典,也許'defaultdict'是開始收集的好地方。但只有幾個K文件,數據結構並不是什麼大問題。在這一點上,你的描述太模糊,不能提出更具體的建議。 – hpaulj
感謝@hpaulj我很感激你的意見。 – StelioK