即使在指定了所有值的情況下，Spark SQL爲什麼在字符串列上可以爲空？

因此，對於這樣的事情：即使在指定了所有值的情況下，Spark SQL爲什麼在字符串列上可以爲空？

case class RandomClass(stringOne: String, stringTwo: String, numericOne: Int) 
val ds = Seq(
    RandomClass("a", null, 1), 
    RandomClass("a", "x", 3), 
    RandomClass("a", "y", 4), 
    RandomClass("a", null, 5) 
).toDS() 

ds.printSchema()

結果

root 
|-- stringOne: string (nullable = true) 
|-- stringTwo: string (nullable = true) 
|-- numericOne: integer (nullable = false)

爲什麼會stringOne是nullable?奇怪的是，numericOne正確的推斷。我假設我只是缺少關於數據集和DataFrame API之間關係的東西？

來源

2017-03-31 hiroprotagonist

爲什麼會stringOne可空

因爲Scala String只是一個Java String，並不同於斯卡拉Int可以null。實際內容（存在null值或缺乏）根本無關緊要。

又見spark why do columns change to nullable true

來源

2017-03-31 19:35:03 user6910411

這是事實，星火使得上依賴於推斷出的類型是否位於斯卡拉對象層次的AnyRef或AnyVal側爲空的最佳猜測，但還要注意，它可能更復雜比起那個來說。例如，當使用Parquet文件時，出於兼容性目的，的所有內容被推斷爲nullable。

同時，當你創建一個模式，你可以簡單地設置nullable = true無處不在，如果你喜歡：

StructField(fieldName, LongType, nullable = true) 

// or using a "DSL" 
$"fieldName".long.copy(nullable = false)

來源

2017-03-31 22:50:37 Vidya

即使在指定了所有值的情況下，Spark SQL爲什麼在字符串列上可以爲空？

回答

相關問題