pytables

5熱度

1回答

我試圖壓縮我的數組這樣 import numpy as np import tables from contextlib import closing FILTERS = tables.Filters(complib='zlib', complevel=5) data = np.zeros(10**7) with closing(tables.open_file('compress

2熱度

2回答

什麼是使用pytables訪問hdf5文件中的任意組的方法？

想要使用pytables在HDF5數據庫文件中訪問/創建任意組。該文件具有以下結構： db |_ user_00 # Group |_ subjectTable # TableObject |_ subject_00 # GroupObject 在註冊一個新的課題意味着添加一行到subjectTable並與主題名稱創建一個組，所以我有： def

1熱度

1回答

熊貓和HDF5聚合性能

我想了解理想的方式來組織熊貓內的數據以實現最佳的聚合性能。我正在處理的數據是yyyy-mm.csv格式，我只是在read_csv中，然後是to_hdf。它通常看起來有點像這樣：的ObjectID時間戳至尊ParamB - > ParamZ 1 2013-01-01 00:00:00 1 9 2 2013-01-01 00:00:00 3 2 1 2013-01-01 00:10:00 8 11

6熱度

2回答

Numpy高效矩陣乘法

要在磁盤上存儲大矩陣，我使用numpy.memmap。這裏是一個示例代碼來測試大矩陣乘法： import numpy as np import time rows= 10000 # it can be large for example 1kk cols= 1000 #create some data in memory data = np.arange(rows*cols, dt

2熱度

1回答

Pytables EArray vs速度/效率表

我想弄清楚什麼是在pytables中存儲時間值對的最有效方法。我正在使用pytables，因爲我正在處理大量的數據。我需要對數據進行計算（平均值，插值等）。我不知道提前行數。我知道EArray可以被附加到，就像表格一樣。有沒有理由選擇一個呢？由於我簡單的數據結構（均相時間值對）我想通了EArray會更快/最有效的，但是從pytables創建者下面引用自己扔我：」 ... PyTables是特

2熱度

1回答

如何在Pytables中有效插值數據

我在pytables中有很長的數組和時間值對錶。我需要能夠對這些數據執行線性插值和零階保持插值。目前，我使用pytables的列式切片符號將列轉換爲numpy數組，然後將numpy數組提供給scipy.interpolate.interp1d以創建插值函數。有沒有更好的方法來做到這一點？我問的原因是，我的理解是將列轉換爲numpy數組基本上會將它們複製到內存中。這意味着當我開始運行我的代碼時

1熱度

1回答

在Pandas中使用布爾索引進行內存爆炸

我正在使用Pandas 12.0中非常大的浮點數據系列。我想要做的是在這個系列中爲NaNs設置極端異常值，這代表了標準化的特徵向量（平均值爲0，標準偏差爲1）。我沒有問題使得特徵向量的布爾面具發現極端值： mask = feature_series > 10 | feature_series < 10 這需要最少的資源。但是，當我嘗試實際使用此掩碼時，會發生內存爆炸，必須在發生崩潰之前強制退

1熱度

1回答

檢查熊貓HDFStore中的PyTables節點是否爲表格

是否有首選方法檢查pandas HDFStore中的PyTables節點是否是表格？這有效，但NoSuchNodeError似乎不是API的一部分，所以也許我不應該依賴它。 In [34]: from tables.table import NoSuchNodeError In [35]: def is_tabular(store, key): try: store.ge

0熱度

1回答

PyTables中的字符串比較/ Numexpr

我剛剛創建並填充了我的第一個PyTables文件。試圖查詢數據，我遇到了一個問題。有一列ic_name，其類型爲StringCol(500)，我已爲此列創建索引。下面的代碼工作正常： count = 0 for x in f.root.raw.projects: if x['ic_name']=="XXX": count += 1 的count值是有點超過200.000

1熱度

1回答

歐幾里得範數使用numexpr

我需要使用numexpr重寫此代碼，它計算矩陣數據[行x列]和向量[1 x列]的歐幾里得範數矩陣。 d = ((data-vec)**2).sum(axis=1) 該怎麼辦？也許還有另一種更快的方法？我使用hdf5和數據矩陣來源於它的問題。例如，此代碼給出錯誤：對象未對齊。 #naive numpy solution, can be parallel? def test_brutefor