Q

從Spark Mysql快速更新

2016-09-06 80 views 0 likes

0

我有一張擁有4百萬條記錄和新數據的表格，每天都有新的數據，我需要在處理新數據後更新表格。目前我正在爲此目的這樣做。我正在使用scala。從Spark Mysql快速更新

val batchSize = 1000 
df.rdd mapPartitions (_ grouped batchSize) foreach { batch => 
    { 
    val connection = getConnection(); 
    val statement = connection.createStatement(); 
    batch.foreach { row => 
     val query = "UPDATE temp SET file_name='" + row.get(0) + " WHERE id=" + row.get(3); 
     statement.executeUpdate(query); 

    } 
    connection.close(); 
    } 
}

這不是確切的查詢，但我這樣做。這需要大約1小時來更新表格。我需要提高性能。我怎樣才能達到性能。

2016-09-06 Atif Shahzad

A

回答

1

如果SQL數據庫未被索引，則根據row.get（3）字段添加索引。
如果SQL數據庫沒有InnoDB的，使它的InnoDB - InnoDB的是併發操作（需要併發）

它看起來像火花併發部分正確地進行進一步的優化應該變得更好從基礎設施（在這種情況下，數據庫）

2016-09-06 08:02:15

+0

是我使用innoDB，也有索引的關鍵，但最大更新每秒6000到7000和表400萬行約11分鐘。 –

+0

@AtifShahzad你可以嘗試進一步並行'批處理'，它是什麼數據類型？你可以像這樣使用'par'關鍵字：'（1 to 10000）.toArray.par' –

+0

批處理數據類型是Seq [Row] –

相關問題

1. 從MySQL快速更新Cassandra
2. 快速更新表
3. Mysql更快更新
4. 如何在Spark Spark中快速執行mysql查詢
5. 如何從方法快速更新UI
6. Android更新ui快速
7. 更新不同行快速
8. java mysql快速
9. 更快加速
10. 如何加快MYSQL更新？
11. 如何在mysql中快速更新數百萬行
12. MySQL如何快速匹配列和更新？
13. 更新快速會話會話
14. 快速更新TextField時發生NullPointerException
15. MySQL選擇不從30K行快速
16. 使用Spark Dataframe更新Mysql列值
17. c＃ - 快速ListBox數據更新
18. 快速和更新「的ID」中
19. 快速靜態文件沒有更新
20. NSUserDefaults沒有快速更新值
21. 快速大規模更新字典
22. 沒有更新的SQL快速插入
23. 如何快速更新ADO實體？
24. WPF Image的連續（快速）更新
25. 如何快速更新表格
26. 用swift快速更新Tableview單元格
27. 在Haskell中快速更新大狀態
28. 反應CPU使用率（快速更新）
29. 快速瞭解App Store中的更新
30. MYSQL：使更新查詢更快？