我正在嘗試提高在Spark中使用Java實現的Logistic迴歸算法的準確性。爲此,我試圖使用該列中最頻繁的值替換列中存在的空值或無效值。例如: -如何使用Java中的spark使用Dataframe中的特定值替換空值?
Name|Place
a |a1
a |a2
a |a2
|d1
b |a2
c |a2
c |
|
d |c1
在這種情況下,我會在列「名」與「A」和列「地方」與「A2」全部替換爲空值。到目前爲止,我只能提取特定列中最頻繁的列。您可以幫我解決第二步如何用該列最頻繁的值替換空值或無效值。
它是否可用Java?我無法找到類似的填充功能。 – PirateJack
對不起,我沒有在Java中使用它,但你可以在這裏找到Spark的最新版本文檔,你可以在那裏看到DataFrameNaFunctions:https://spark.apache.org/docs/latest/api/java/index .html可能會嘗試填寫沒有.na – Rami
@PirateJack你能接受答案,如果它解決了你的問題? – Rami