hdfstore

    2熱度

    1回答

    我已經使用熊貓創建了一個大的(120GB; 10億行)HDF5文件。初始創建HDF文件後,我添加到文件像這樣: with pd.get_store(path_output) as hdf_output: for i in range(BIG_LOOP): df = ... hdf_output.append('all', df, data_columns=[])

    1熱度

    1回答

    我使用熊貓來創建一個大的索引HDF5表。我想重新命名錶格中12列中的2列。我寧願不重建/重新索引表。 可這不復制所有數據(140GB)做些什麼呢?我希望文件中只有幾個元數據可以用正確的命令輕鬆地換出。 這次來到了我,因爲我有幾個「非天然」一欄包含空格的名字,並沒有意識到這是一個問題,直到試圖運行的SELECT語句。

    2熱度

    1回答

    我正在嘗試導入~12萬條帶有8列的記錄到Python中。由於其巨大的尺寸,我的筆記本電腦內存不足以滿足此需求。現在我試圖將SQL數據導入HDF5文件格式。如果有人可以共享一段代碼來查詢SQL數據並將其以HDF5格式保存成塊,那將會非常有幫助。我打算使用任何其他易於使用的文件格式。 我打算做一些基本的探索性分析,稍後可能會使用熊貓創建一些決策樹/線性迴歸模型。 import pyodbc impo

    1熱度

    1回答

    給出一個包含有一個熊貓HDFStore之間差異DataFrame: import pandas as pd import numpy.random as rd df = pd.DataFrame(rd.randn(int(1000)).reshape(500, 2), columns=list('ab')) store = pd.HDFStore('store.h5') store.ap

    1熱度

    1回答

    我遵循這裏的安裝準則。 http://www.pytables.org/usersguide/installation.html 因此,無論何時我從PyTables/build/lib.linux-x86_64-2.7文件夾在iPython中運行此命令,它都可以正常工作。 In [1]: import pandas as pd In [2]: store = pd.HDFStore('store.

    0熱度

    2回答

    我有一個熊貓數據框對象,我預先分配了400 000個條目。 2列是類型爲datetime.datetime的時間戳和浮點數。 當我嘗試在表中插入(覆蓋)一行時,它看起來相當慢,這取決於表的大小,我得到類似0.044秒的東西。 我已經創建了一個整數索引,我正在使用這個索引來訪問該行。 這裏是我如何使用它: maxsize = 400000 data = pd.DataFrame({'ts' : d

    4熱度

    1回答

    我在平面文件中使用Python Pandas/Pytables/H5py將平面文件轉換爲HDF5的幾個TB數據(在子集中)查詢和搜索。我打算用to_hdf之類的東西轉換數據的每個小節並將它們存儲在HDFStore中。 儘管存儲的數據將永遠不需要更改,但我可能需要稍後將數據附加到某個特定子部分,然後重新索引(用於查詢)整個部分。我的問題是這樣的:將數據追加到現有表(使用store.append),然

    5熱度

    1回答

    考慮以下hdfstore和dataframes df和df2 import pandas as pd store = pd.HDFStore('test.h5') midx = pd.MultiIndex.from_product([range(2), list('XYZ')], names=list('AB')) df = pd.DataFrame(dict(C=range(6)),

    1熱度

    2回答

    將存儲在HDFS中的數據加載到HIVE中時,HDFS中的這些數據是否會被複制到HIVE所使用的不同格式中?還是它使用原始文件來存儲/選擇/插入/修改數據? 上下文: LOAD DATA INPATH'/home/user/sample.txt'OVERWRITE INTO TABLE employee; HIVE是否使用/home/user/sample.txt總是存儲/選擇/插入/修改數據,還是

    4熱度

    1回答

    我正在使用大熊貓hdfstore處理來自正在進行的迭代過程的數據幀。在每次迭代中,我追加到hdfstore中的表格。這裏是一個玩具例子:對hdfstore.append拋出各種異常 import pandas as pd from pandas import HDFStore import numpy as np from random import choice from string