從pandas.HDFStore表中選擇列

如何從熊貓HDFStore中檢索特定列？我經常使用非常大的數據集，這些數據集太大而無法在內存中操作。我想迭代讀取一個csv文件，將每個塊附加到HDFStore對象中，然後處理數據的子集。我看過一個簡單的CSV文件，用下面的代碼加載它變成一個HDFStore：從pandas.HDFStore表中選擇列

tmp = pd.HDFStore('test.h5') 
chunker = pd.read_csv('cars.csv', iterator=True, chunksize=10, names=['make','model','drop']) 
tmp.append('df', pd.concat([chunk for chunk in chunker], ignore_index=True))

和輸出：

In [97]: tmp 
Out[97]: 
<class 'pandas.io.pytables.HDFStore'> 
File path: test.h5 
/df  frame_table (typ->appendable,nrows->1930,indexers->[index])

我的問題是我如何訪問來自tmp['df']特定的列？該文檔提到了一個select()方法和一些Term對象。所提供的例子適用於Panel數據;然而，我太過於將它擴展到更簡單的數據框的情況。我的猜測是我必須以某種方式創建列的索引。謝謝！

來源

2012-12-18 Zelazny7

HDFStore記錄表格的方式是將列按類型存儲爲單個numpy數組。你總是找回所有的列，你可以過濾它們，所以你會回來爲你的要求。在0.10.0中，您可以傳遞涉及列的Term。

store.select('df', [ Term('index', '>', Timestamp('20010105')), 
        Term('columns', '=', ['A','B']) ])

，或者你可以重新索引之後

df = store.select('df', [ Term('index', '>', Timestamp('20010105') ]) 
df.reindex(columns = ['A','B'])

的axes是不是真的在這裏解決方案（你實際上創造了什麼是效果存儲換位幀）。該參數允許您重新排列軸的存儲，以不同的方式啓用數據對齊。對於數據幀來說，它並不意味着太多。對於3d或4d結構，磁盤上的數據對齊對真正快速的查詢至關重要。

0.10。1將允許更優雅的解決方案，即數據列，也就是說，您可以選擇某些列作爲表格存儲中的自己的列來表示，因此您只能選擇它們。這是一種嘗試即將到來的。

store.append('df', columns = ['A','B','C']) 
store.select('df', [ 'A > 0', Term('index', '>', Timestamp(2000105)) ])

另一種方法是將單獨的表存儲在文件的不同節點中，然後您只能選擇所需的內容。

一般來說，我推薦再寬真正的桌子。海頓提供了面板解決方案，這對您而言可能會有所幫助，因爲實際的數據安排應反映您想要如何查詢數據。

來源

2012-12-22 01:27:49 Jeff

0.10.1中的這個特性是否存在？我一直無法使用它。 github上的開放問題是什麼？ – alexbw

0.10.1支持數據列;你有什麼問題？ – Jeff

我想我們應該更新這個以避免混淆，傑夫？ –

您可以將數據幀存儲與列的指標如下：

import pandas as pd 
import numpy as np 
from pandas.io.pytables import Term 

index = pd.date_range('1/1/2000', periods=8) 
df = pd.DataFrame(np.random.randn(8,3), index=index, columns=list('ABC')) 

store = pd.HDFStore('mydata.h5') 
store.append('df_cols', df, axes='columns')

，然後選擇你可能希望：

In [8]: store.select('df_cols', [Term('columns', '=', 'A')]) 
Out[8]: 
2000-01-01 0.347644 
2000-01-02 0.477167 
2000-01-03 1.419741 
2000-01-04 0.641400 
2000-01-05 -1.313405 
2000-01-06 -0.137357 
2000-01-07 -1.208429 
2000-01-08 -0.539854

其中：

In [9]: df 
Out[9]: 
        A   B   C 
2000-01-01 0.347644 0.895084 -1.457772 
2000-01-02 0.477167 0.464013 -1.974695 
2000-01-03 1.419741 0.470735 -0.309796 
2000-01-04 0.641400 0.838864 -0.112582 
2000-01-05 -1.313405 -0.678250 -0.306318 
2000-01-06 -0.137357 -0.723145 0.982987 
2000-01-07 -1.208429 -0.672240 1.331291 
2000-01-08 -0.539854 -0.184864 -1.056217

。

對我來說，這不是一個理想的解決方案，因爲我們只能通過一件事物索引DataFrame！令人擔憂的是the docs似乎表明您可以只指數一件事數據幀，至少使用axes：

Pass the axes keyword with a list of dimension (currently must by exactly 1 less than the total dimensions of the object).

我可能不正確地讀這篇文章，在這種情況下希望有人能證明我錯了！

。

注意：我發現通過兩種方式（索引和列）來索引DataFrame的一種方法是將其轉換爲Panel，然後使用兩個索引進行檢索。然而，每次檢索項目時，我們都必須將所選子面板轉換爲DataFrame ...再次，並不理想。

來源

2012-12-20 17:16:15

該指數應該是日期時間嗎？我用字符作爲索引，並按照你所做的相同的方式進行。但是，當我通過代碼中的select語句來到時（在[8]中）。它檢索了整個數據幀。我在這裏錯過了什麼？ – JustInTime

請參閱下面的答案;你基本上是存儲一個轉置幀。這裏不需要軸參數 – Jeff

本例中的大多數東西都適用於我，除了這一行： 'store.append（'df_cols'，df，axes ='columns'）' 它引發錯誤 'ValueError：No如果您將該行替換爲： 'store.append（'df_cols'，df，data_columns = True）' 那麼錯誤就會出現在對象類型' '並且其餘的例子工作。 – karenyng

從pandas.HDFStore表中選擇列

回答

相關問題