DataFrame第一個函數ignoreNulls不起作用

讀取Spark文檔的第一個函數，它提到ignoreNulls會得到第一個非空值。DataFrame第一個函數ignoreNulls不起作用

import org.apache.spark.sql.SparkSession 
import org.apache.spark.sql.functions._ 
import org.apache.spark.sql.expressions.{Window, WindowSpec} 

object tmp { 
    def main(args: Array[String]): Unit = { 
    val spark = SparkSession.builder().master("local") getOrCreate() 
    import spark.implicits._ 

    val input = Seq(
     (1234, 1, None), 
     (1234, 2, Some(1)), 

     (5678, 1, Some(11)), 
     (5678, 2, Some(22)) 
    ).toDF("service_id", "counter", "value") 

    lazy val window: WindowSpec = Window.partitionBy("service_id").orderBy("counter") 
    val firsts = input.withColumn("first_value", first("value", ignoreNulls = true).over(window)) 
    firsts.orderBy("service_id", "counter").show() 
    } 
}

這將返回以下輸出。我想的第一行FIRST_VALUE在空值是1。我失去了一些東西在這裏

+----------+-------+-----+-----------+ 
|service_id|counter|value|first_value| 
+----------+-------+-----+-----------+ 
|  1234|  1| null|  null| 
|  1234|  2| 1|   1| 
|  5678|  1| 11|   11| 
|  5678|  2| 22|   11| 
+----------+-------+-----+-----------+

來源

2017-10-28 xstack2000

你必須定義rangeBetween選項爲它工作

lazy val window: WindowSpec = Window.partitionBy("service_id").orderBy("counter").rangeBetween(Long.MinValue, Long.MaxValue)

它，因爲如果你不」 t在window函數中定義範圍，則採用遞增範圍，即對於第一行，範圍是1行，對於第二行，範圍是2行，等等.....全部在分區窗口內。

我希望答案有幫助

來源

2017-10-28 10:19:52

謝謝，這是可行的。雖然這些似乎應該是默認值。 – xstack2000

我的榮幸@ xstack2000，:)感謝您的支持和接受 –

DataFrame第一個函數ignoreNulls不起作用

回答

相關問題