2017-04-07 54 views
1
library(sparklyr) 
library(dplyr) 
home <- "/usr/hdp/current/spark-client" 
sc <- spark_connect(master = "yarn-client", spark_home = home, version = "1.6.2") 
readFromSpark <- spark_read_csv(sc, name="test", path ="hdfs://hostname/user/test.csv",header=TRUE) 

我已經成功使用sparklyr訪問hdfs。但是如何使用sparklyr訪問配置單元表/命令,因爲我需要將此df存儲到配置單元中。使用sparklyr包訪問配置單元?

+0

試試這個:'df_tbl < - copy_to(SC,readFromSpark, 「yourTableName」)' –

+0

@JaimeCaffarel我不希望把他們作爲DF df_tbl。我想將readFromSpark保存到配置單元表中,我需要創建數據庫,然後我可以將readFromSpark放入配置單元中。 – FlyingTurtle

回答

4

AFAIK,sparklyr沒有直接創建數據庫/表的功能。但是您可以使用DBI來創建數據庫/表。

library(DBI) 
iris_preview <- dbExecute(sc, "CREATE EXTERNAL TABLE...") 
+0

太好了,但是如何將'sdf'註冊或者'sdf'使用'tbl_cache'緩存到Hive中作爲您在此建議的EXTERNAL TABLE?我沒有看到使用'sparklyr'和'dplyr'可以在內存中操作的本地對象創建表的任何說明。 – quickreaction