pytables

    5熱度

    1回答

    我試圖壓縮我的數組這樣 import numpy as np import tables from contextlib import closing FILTERS = tables.Filters(complib='zlib', complevel=5) data = np.zeros(10**7) with closing(tables.open_file('compress

    2熱度

    2回答

    想要使用pytables在HDF5數據庫文件中訪問/創建任意組。 該文件具有以下結構: db |_ user_00 # Group |_ subjectTable # TableObject |_ subject_00 # GroupObject 在註冊一個新的課題意味着添加一行到subjectTable並與主題名稱 創建一個組,所以我有: def

    1熱度

    1回答

    我想了解理想的方式來組織熊貓內的數據以實現最佳的聚合性能。我正在處理的數據是yyyy-mm.csv格式,我只是在read_csv中,然後是to_hdf。它通常看起來有點像這樣: 的ObjectID時間戳至尊ParamB - > ParamZ 1 2013-01-01 00:00:00 1 9 2 2013-01-01 00:00:00 3 2 1 2013-01-01 00:10:00 8 11

    6熱度

    2回答

    要在磁盤上存儲大矩陣,我使用numpy.memmap。 這裏是一個示例代碼來測試大矩陣乘法: import numpy as np import time rows= 10000 # it can be large for example 1kk cols= 1000 #create some data in memory data = np.arange(rows*cols, dt

    2熱度

    1回答

    我想弄清楚什麼是在pytables中存儲時間值對的最有效方法。我正在使用pytables,因爲我正在處理大量的數據。我需要對數據進行計算(平均值,插值等)。我不知道提前行數。 我知道EArray可以被附加到,就像表格一樣。有沒有理由選擇一個呢? 由於我簡單的數據結構(均相時間值對)我想通了EArray會更快/最有效的,但是從pytables創建者下面引用自己扔我: 」 ... PyTables是特

    2熱度

    1回答

    我在pytables中有很長的數組和時間值對錶。我需要能夠對這些數據執行線性插值和零階保持插值。 目前,我使用pytables的列式切片符號將列轉換爲numpy數組,然後將numpy數組提供給scipy.interpolate.interp1d以創建插值函數。 有沒有更好的方法來做到這一點? 我問的原因是,我的理解是將列轉換爲numpy數組基本上會將它們複製到內存中。這意味着當我開始運行我的代碼時

    1熱度

    1回答

    我正在使用Pandas 12.0中非常大的浮點數據系列。我想要做的是在這個系列中爲NaNs設置極端異常值,這代表了標準化的特徵向量(平均值爲0,標準偏差爲1)。 我沒有問題使得特徵向量的布爾面具發現極端值: mask = feature_series > 10 | feature_series < 10 這需要最少的資源。但是,當我嘗試實際使用此掩碼時,會發生內存爆炸,必須在發生崩潰之前強制退

    1熱度

    1回答

    是否有首選方法檢查pandas HDFStore中的PyTables節點是否是表格?這有效,但NoSuchNodeError似乎不是API的一部分,所以也許我不應該依賴它。 In [34]: from tables.table import NoSuchNodeError In [35]: def is_tabular(store, key): try: store.ge

    0熱度

    1回答

    我剛剛創建並填充了我的第一個PyTables文件。試圖查詢數據,我遇到了一個問題。有一列ic_name,其類型爲StringCol(500),我已爲此列創建索引。下面的代碼工作正常: count = 0 for x in f.root.raw.projects: if x['ic_name']=="XXX": count += 1 的count值是有點超過200.000

    1熱度

    1回答

    我需要使用numexpr重寫此代碼,它計算矩陣數據[行x列]和向量[1 x列]的歐幾里得範數矩陣。 d = ((data-vec)**2).sum(axis=1) 該怎麼辦?也許還有另一種更快的方法? 我使用hdf5和數據矩陣來源於它的問題。 例如,此代碼給出錯誤:對象未對齊。 #naive numpy solution, can be parallel? def test_brutefor