我有一個不同用戶的表,其中有400,000個用戶。我想將其分成4個部分,並且預計每個用戶只能位於一個部分。將Spark數據幀拆分爲部分
這裏是我的代碼:
val numPart = 4
val size = 1.0/numPart
val nsizes = Array.fill(numPart)(size)
val data = userList.randomSplit(nsizes)
然後我寫的每一個data(i)
,我從到,到拼花文件。選擇目錄,按用戶ID分組並且按部分計數,有一些用戶位於兩個或更多部分。
我還不知道爲什麼?