如何比較多行？

2015-08-21 81 views 5 likes

我想比較兩個連續的行i與i-1的col2（按col1排序）。如何比較多行？

如果i個行item_i和item_[i-1]_row是不同的，我想用1

+--------------+ 
| col1 col2 | 
+--------------+ 
| row_1 item_1 | 
| row_2 item_1 | 
| row_3 item_2 | 
| row_4 item_1 | 
| row_5 item_2 | 
| row_6 item_1 | 
+--------------+

遞增的item_[i-1]計數在上面的例子，如果我們在掃描兩行時間向下，我們看到row_2和row_3是不同的，因此我們爲item_1添加一個。接下來，我們看到row_3與row_4不同，然後將其添加到item_2。繼續，直到我們結束：

+-------------+ 
| col2 col3 | 
+-------------+ 
| item_1 2 | 
| item_2 2 | 
+-------------+

來源

2015-08-21 quickinsights

回答

您可以使用窗口函數和聚合的組合來做到這一點。窗口函數用於獲取下一個值col2（使用col1進行排序）。然後彙總計算我們遇到差異的時間。這在下面的代碼中實現：

val data = Seq(
    ("row_1", "item_1"), 
    ("row_2", "item_1"), 
    ("row_3", "item_2"), 
    ("row_4", "item_1"), 
    ("row_5", "item_2"), 
    ("row_6", "item_1")).toDF("col1", "col2") 

import org.apache.spark.sql.expressions.Window 
val q = data. 
    withColumn("col2_next", 
    coalesce(lead($"col2", 1) over Window.orderBy($"col1"), $"col2")). 
    groupBy($"col2"). 
    agg(sum($"col2" =!= $"col2_next" cast "int") as "col3") 

scala> q.show 
17/08/22 10:15:53 WARN WindowExec: No Partition Defined for Window operation! Moving all data to a single partition, this can cause serious performance degradation. 
+------+----+ 
| col2|col3| 
+------+----+ 
|item_1| 2| 
|item_2| 2| 
+------+----+

來源

2015-08-22 17:50:36 Herman

相關問題

1. 比較多行值
2. 如何比較行與列？
3. 如何比較兩行/多行的兩個不同列
4. 比較多列
5. 比較多串
6. 如何比較java中的多個類？
7. mysql如何做多類比較？
8. jQuery：如何比較多個輸入
9. 如何比較多個.resx文件？
10. 如何使用distinctUntilKeyChanged比較多個鍵？
11. 比較多信如何匹配
12. 比較的行
13. 比較兩行
14. 比較行
15. Datatable比較行
16. 有效地執行多重比較
17. 比較多個CSV中的第一行
18. 比較2個集（一對多行）
19. 在sql server中比較多行和列
20. 比較每一行與多家
21. 比較sql中的多行數據
22. 使用CTE比較多行數據
23. 比較兩個大表中的多行
24. 比較Datagridview行數據與多列
25. 如何將表與多個工會進行比較並加入？
26. 如何將INT與其他許多INT進行比較？
27. 如何與xslt中的多個字符串進行比較
28. NSComparisonResult，如何將searchText與多個字符串進行比較？
29. 如何比較行列值的多個參數？
30. 如何將多個變量與單個條件進行比較？