我有多個HDF5數據集保存在同一個文件中,my_file.h5
。這些數據集有不同的尺寸,但相同數量的第一維度觀察:在原地混洗多個HDF5數據集
features.shape = (1000000, 24, 7, 1)
labels.shape = (1000000)
info.shape = (1000000, 4)
重要的是,信息/標籤數據被正確連接到每組特徵,因此我想洗牌這些數據集與一個相同的種子。此外,我想洗牌這些,而不用將它們完全加載到內存中。這可能使用numpy和h5py嗎?
有人剛剛downvoted這2個答案。我想知道爲什麼?有人對我們說不能做的事感到失望嗎?或者是否有人有解決方案?評論通常會降低信息量。 – hpaulj
可能是因爲這個問題指出「沒有將它們完全加載到內存中」。在這兩個答案中,X必須加載到內存中。 – wassname