我是新來的火花和sparkR,我的問題如下: 當我寫下面的代碼: 1)。設置環境並啓動spark.session()使用sparkR處理數據時,程序真正在哪裏運行?
sparkR.session(master = "my/spark/master/on/one/server/standaloneMode", , sparkConfig = list(spark.driver.memory="4g",spark.sql.warehouse.dir = "my/hadoop_home/bin",sparkPackages = "com.databricks:spark-avro_2.11:3.0.1"))
然後我寫道:
rund <- data.frame(V1 = runif(10000000,100,10000),V2 =runif(10000000,100,10000))
df <- as.DataFrame(rund)
這裏是東西:
1)。該計劃在何處做'分裂'?在我的本地機器上還是在服務器上? 2)。另外,誰能告訴我程序在哪裏運行代碼「as.DataFrame()」?在我的電腦或我的服務器上設置爲spark的standalone_mode。
謝謝艾克。 我沒有關於分佈式計算系統領域的相對BG,並且對spark和sparkR是新的,所以我在這幾天遭受了很多。 hhaa 如果你有時間,你能幫我提一下我的另一個問題嗎? http://stackoverflow.com/questions/39683374/sparkr-cannot-read-data-at-deployed-workers-but-ok-with-local-machine –
樂於幫助,歡迎來到Stack Overflow。如果此答案或任何其他人解決了您的問題,請將其標記爲已接受。 – Aeck