2016-07-25 89 views
0

我正在測試丟失數據的分類器,並且想要隨機刪除Spark中的行。Spark隨機放置行

我想對每第n行做一些操作,刪除20行。

這樣做的最好方法是什麼?

+0

每n行不*隨機*。 – Emre

+0

那麼如果n是一個隨機數。 – other15

回答

1

如果它是隨機的,您可以使用sample這種方法可以讓您花費DataFrame的一小部分。但是,如果您的想法是將您的數據分爲trainingvalidation,則可以使用randomSplit

是那麼優雅的另一種選擇是將您的DataFrameRDD和使用zipWithIndex和過濾通過index,也許是這樣的:

df.rdd.zipWithIndex().filter(lambda x: x[-1] % 20 != 0) 
+0

嗨阿爾貝託會嘗試。我的目標是模擬丟失的數據,以便我可以看到分類器在數據丟失幾秒鐘後如何在流數據上執行。 – other15