2016-11-28 78 views
0

我有問題執行以下命令:哪種方法可以更容易地用hadoop和hive設置ec2集羣?

sqlContext = HiveContext(sc) 
在EC2簇

。它在本地運行良好,但不在集羣中運行。

集羣成立用下面的命令:Can't seem to build hive for spark

是否安裝蜂箱支持:

spark-ec2 -k <your key pair name> -i /path/to/identity-file.pem -r us-west-2 -s 2 --instance-type m3.medium --spark-version 1.5.2 --hadoop-major-version yarn launch <your cluster name> 
根據

?我在哪裏可以找到配置文件? 無論如何,我是否需要編譯spark for hive(-Phive)支持?

+0

的easyest方法是使用qubole。 – leftjoin

+0

您可以使用Apache Ambari,它具有用於hadoop安裝的嚮導。 我從Hortonworks下載並遵循他們的教程。 如果您需要更多幫助,請與我聯繫。 – belostoky

回答

0

最好的方法是使用Spark版本2.0,其HiveContext已經集成在SparkSession中。

上傳集羣的主要參數是這裏--spark版本和Hadoop的主要版本:

./spark-ec2 -k <your key pair name> -i /path/to/identity-file.pem -s <number of slaves> -r <region> --instance-type <instance type> --spark-version=2.0.1 --hadoop-major-version yarn launch rcluster