2017-01-27 48 views
1

我試圖從一個修改顯示在其中的元素的舊的數據框中創建一個新的數據框。我有這樣一個數據幀:更新pyspark的dataframe列

+-------+--------------------+--------------------+ 
| A  |   B  |     C| 
+-------+--------------------+--------------------+ 
| 224.39|[2533695.47884,25...|[2.53311343446655...| 
| 398.56|[2551303.18964,25...|[6740638.70550121...| 
|1445.59|[2530998.06972,25...|[7839490.11546087...| 

在列B和C中有元素列表(每列的每行約100)。我想創建一個新的數據框,從這個選擇只有,例如,每列C列5個元素。這將是這樣的:

+-------+--------------------+--------------------+ 
| A  |   B  |     C| 
+-------+--------------------+--------------------+ 
| 224.39|[2533695.47884,25...|[1,2,3,4,5]   | 
| 398.56|[2551303.18964,25...|[1,2,3,4,5]   | 
|1445.59|[2530998.06972,25...|[1,2,3,4,5]   | 

到目前爲止,我只設法在一個新的數據幀的C柱提取和我試圖用foreach(lambda x: x[0:5]),但是這的foreach後數據幀是NoneType元素,它不沒有工作。

在此先感謝。

回答

1

最後我找到了一種方法來做到這一點。使用VectorSlicer很容易從PCA中選擇功能。