Spark隨機放置行

我正在測試丟失數據的分類器，並且想要隨機刪除Spark中的行。Spark隨機放置行

我想對每第n行做一些操作，刪除20行。

這樣做的最好方法是什麼？

2016-07-25 other15

每n行不*隨機*。 – Emre

那麼如果n是一個隨機數。 – other15

如果它是隨機的，您可以使用sample這種方法可以讓您花費DataFrame的一小部分。但是，如果您的想法是將您的數據分爲training和validation，則可以使用randomSplit。

是那麼優雅的另一種選擇是將您的DataFrame爲RDD和使用zipWithIndex和過濾通過index，也許是這樣的：

df.rdd.zipWithIndex().filter(lambda x: x[-1] % 20 != 0)

2016-07-25 18:00:15

嗨阿爾貝託會嘗試。我的目標是模擬丟失的數據，以便我可以看到分類器在數據丟失幾秒鐘後如何在流數據上執行。 – other15

回答