hdfstore

2熱度

1回答

pandas.HDFStore：如何修改現有商店的「data_columns」？我想添加索引到不在數據列中的列

我已經使用熊貓創建了一個大的（120GB; 10億行）HDF5文件。初始創建HDF文件後，我添加到文件像這樣： with pd.get_store(path_output) as hdf_output: for i in range(BIG_LOOP): df = ... hdf_output.append('all', df, data_columns=[])

1熱度

1回答

HDF5：有沒有辦法重命名現有HDF5表中的列名？

我使用熊貓來創建一個大的索引HDF5表。我想重新命名錶格中12列中的2列。我寧願不重建/重新索引表。可這不復制所有數據（140GB）做些什麼呢？我希望文件中只有幾個元數據可以用正確的命令輕鬆地換出。這次來到了我，因爲我有幾個「非天然」一欄包含空格的名字，並沒有意識到這是一個問題，直到試圖運行的SELECT語句。

2熱度

1回答

從SQL服務器導入海量數據集到HDF5

我正在嘗試導入~12萬條帶有8列的記錄到Python中。由於其巨大的尺寸，我的筆記本電腦內存不足以滿足此需求。現在我試圖將SQL數據導入HDF5文件格式。如果有人可以共享一段代碼來查詢SQL數據並將其以HDF5格式保存成塊，那將會非常有幫助。我打算使用任何其他易於使用的文件格式。我打算做一些基本的探索性分析，稍後可能會使用熊貓創建一些決策樹/線性迴歸模型。 import pyodbc impo

1熱度

1回答

熊貓HDFStore：使用選擇功能，可直接進入

給出一個包含有一個熊貓HDFStore之間差異DataFrame： import pandas as pd import numpy.random as rd df = pd.DataFrame(rd.randn(int(1000)).reshape(500, 2), columns=list('ab')) store = pd.HDFStore('store.h5') store.ap

1熱度

1回答

ImportError：HDFStore需要PyTables，「沒有模塊命名錶」

我遵循這裏的安裝準則。 http://www.pytables.org/usersguide/installation.html 因此，無論何時我從PyTables/build/lib.linux-x86_64-2.7文件夾在iPython中運行此命令，它都可以正常工作。 In [1]: import pandas as pd In [2]: store = pd.HDFStore('store.

0熱度

2回答

熊貓數據框和速度

我有一個熊貓數據框對象，我預先分配了400 000個條目。 2列是類型爲datetime.datetime的時間戳和浮點數。當我嘗試在表中插入（覆蓋）一行時，它看起來相當慢，這取決於表的大小，我得到類似0.044秒的東西。我已經創建了一個整數索引，我正在使用這個索引來訪問該行。這裏是我如何使用它： maxsize = 400000 data = pd.DataFrame({'ts' : d

4熱度

1回答

HDFStore：將數據附加到現有表並將其重新索引與創建新表之間的效率

我在平面文件中使用Python Pandas/Pytables/H5py將平面文件轉換爲HDF5的幾個TB數據（在子集中）查詢和搜索。我打算用to_hdf之類的東西轉換數據的每個小節並將它們存儲在HDFStore中。儘管存儲的數據將永遠不需要更改，但我可能需要稍後將數據附加到某個特定子部分，然後重新索引（用於查詢）整個部分。我的問題是這樣的：將數據追加到現有表（使用store.append），然

5熱度

1回答

我可以更新HDFStore嗎？

考慮以下hdfstore和dataframes df和df2 import pandas as pd store = pd.HDFStore('test.h5') midx = pd.MultiIndex.from_product([range(2), list('XYZ')], names=list('AB')) df = pd.DataFrame(dict(C=range(6)),

1熱度

2回答

在Hive中執行LOAD DATA時，它是否複製數據？

將存儲在HDFS中的數據加載到HIVE中時，HDFS中的這些數據是否會被複制到HIVE所使用的不同格式中？還是它使用原始文件來存儲/選擇/插入/修改數據？上下文： LOAD DATA INPATH'/home/user/sample.txt'OVERWRITE INTO TABLE employee; HIVE是否使用/home/user/sample.txt總是存儲/選擇/插入/修改數據，還是

4熱度

1回答

如何在追加失敗時有效地重建熊貓hdfstore表格

我正在使用大熊貓hdfstore處理來自正在進行的迭代過程的數據幀。在每次迭代中，我追加到hdfstore中的表格。這裏是一個玩具例子：對hdfstore.append拋出各種異常 import pandas as pd from pandas import HDFStore import numpy as np from random import choice from string