2017-07-04 52 views
0

我有一些數據的CSV文件,我想根據這些數據生成合成數據。換句話說,我想用與舊數據相同的分佈來生成新數據,例如統計引導。如何在Python中生成合成數據?

我該如何在Python中做到這一點?

我在R中找到了一些庫,但在Python中我沒有找到任何東西。

+1

我認爲你應該自己做一個腳本,但它很容易。你可以找到如下例子:http://www.python-course.eu/synthetical_test_data_with_python.php – Dadep

+0

你到底在做什麼?引導重採樣不適合你的情況? – rafaelvalle

回答

1

正如評論中提到的,你可能最好寫自己的腳本。您可以使用import pandas訪問CSV文件,使用import numpy進行隨機抽樣。

我相信以下是你想要的代碼:

import pandas as pd 
import numpy as np 

df = pd.read_csv('CSV_file.csv') 

size_of_sample = 10 

rows = np.random.choice(df.index.values, size_of_sample) 

df_sample = df.loc[rows] 

的numpy的choice功能在默認情況下更換樣本,因此將生成具有相同的分佈與原始數據幀的樣本。