使用層級索引切片數據幀

我有兩個數據幀。一個有股票交易（例如買入日期，買入價格，賣出日期，賣出價格）。另一個數據框具有日期順序的所有價格，層次索引爲['symbol', 'date']索引'close'價格爲dfPrice。使用層級索引切片數據幀

不知道提交數據幀到該組的一個更好的辦法，我已經通過了前10行的記錄：

ra = dfPrice.to_records()

產生的ra的：

rec.array([('A', Timestamp('2000-09-01 00:00:00'), 39.84), 
('A', Timestamp('2000-09-05 00:00:00'), 39.8), 
('A', Timestamp('2000-09-06 00:00:00'), 38.63), 
('A', Timestamp('2000-09-07 00:00:00'), 39.84), 
('A', Timestamp('2000-09-08 00:00:00'), 38.15), 
('A', Timestamp('2000-09-11 00:00:00'), 36.54), 
('A', Timestamp('2000-09-12 00:00:00'), 35.41), 
('A', Timestamp('2000-09-13 00:00:00'), 35.41), 
('A', Timestamp('2000-09-14 00:00:00'), 35.89), 
('A', Timestamp('2000-09-15 00:00:00'), 36.7)], 
     dtype=[('symbol', 'S1'), ('date', 'O'), ('close', '<f8')])

可以通過：

dfPrice = DataFrame(ra) 
dfPrice.set_index(['symbol', 'date'], inplace=True)

我想要的是用bu y日期和賣出日期，並在我持有股票的時間間隔內查找最低價格。

如果我在2000-09-07購買了股票'A'並在2000-09-14出售（保持週末沒有任何價格條目），我想我可以通過使用某些東西獲得最低價格如：

minPrice = dfPrice.min['A', '2000-09-07':'2000-09-14']

答案是35.41。

我看過堆棧溢出，但空了。我可以用什麼來獲得我想要的東西？

來源

2016-10-04 jeff97005

我編輯了你的問題。請努力將您的文本資本化：從長遠來看，您會發現它會使您的問題受到很大的好處。 –

可能有這樣做的更直接的方式，但我設法得到advanced indexing使用一個元組工作爲您分級指數：

>>> dfPrice[('A','2000-09-07'):('A','2000-09-14')] 
        close 
symbol date    
'A' 2000-09-07 39.84 
     2000-09-08 38.15 
     2000-09-11 36.54 
     2000-09-12 35.41 
     2000-09-13 35.41 
     2000-09-14 35.89 
>>> dfPrice[('A','2000-09-07'):('A','2000-09-14')].min() 
close 35.41 
dtype: float64

因此，對於一個你必須使用先進的索引以切入第二級索引，並且您必須將.min()方法應用於切片數據框（而不是嘗試將索引放入對.min()的調用中）。

來源

2016-10-05 00:17:20

我試圖用大數據框（超過2,000,000行）得到一個錯誤消息：KeyError：'密鑰長度（2）大於MultiIndex lexsort深度（0）'，我不明白爲什麼 - 任何幫助？ – jeff97005

我試圖用大數據框（超過2,000,000行）得到了一條錯誤消息：KeyError：'密鑰長度（2）大於MultiIndex lexsort depth（0）'。試驗我發現它適用於100行，不適用於1,000行。是否有解決大型數據框的問題？ – jeff97005

@ jeff97005如果它適用於較小的情況，那麼您的大號可能會出現問題。你確定大數據框有正確的層次結構嗎？你能比較小型和大型案例的'dfPrice.index'嗎？我的意思是看'dfPrice.index.names'，'dfPrice.index.levels'等 –

使用層級索引切片數據幀

回答

相關問題