2
夫婦的選擇,我能想到如何將表格從紅移轉換爲Parquet格式?然後
- 星火使用紅移連接器
- 卸載到S3流回到S3的gzip壓縮有一個命令行工具
不知道這是更好的過程。我不清楚如何輕鬆地將紅移模式轉化爲鑲木地板可以攝入的東西,但也許火花連接器會爲我照顧。
夫婦的選擇,我能想到如何將表格從紅移轉換爲Parquet格式?然後
不知道這是更好的過程。我不清楚如何輕鬆地將紅移模式轉化爲鑲木地板可以攝入的東西,但也許火花連接器會爲我照顧。
獲取紅移JDBC罐子和使用sparkSession.read.jdbc
與紅移連接細節像這樣在我的例子:
val properties = new java.util.Properties()
properties.put("driver", "com.amazon.redshift.jdbc42.Driver")
properties.put("url", "jdbc:redshift://redshift-host:5439/")
properties.put("user", "<username>") properties.put("password",spark.conf.get("spark.jdbc.password", "<default_pass>"))
val d_rs = spark.read.jdbc(properties.get("url").toString, "data_table", properties)
我的相關博客文章:http://garrens.com/blog/2017/04/09/connecting-apache-spark-to-external-data-sources/
星火流應該是在這種情況下無關緊要。
我也建議使用databricks spark-redshift軟件包來使大塊從redshift卸載並加載成spark更快。
爲什麼你想從紅移流?出口通常是批量操作 – eliasah