apache-spark

-2熱度

2回答

有沒有更簡單的方法在本地安裝Windows 7 64位上的Apache Spark？

0熱度

1回答

我試圖使用Spark-shell命令加入兩個文本文件。我寫了以下代碼。 val a = sc.parallelize(List(("symbol", "CNN"), ("symbol", "CND"))) val b = sc.parallelize(List(("symbol", "CNN"), ("symbol1", "CNN"))) val joned = a.join(b) 但它顯

1熱度

1回答

在Spark中加入兩個HDFS文件

我想使用spark shell從HDFS加入兩個文件。這兩個文件是製表符分隔，我想加入的第二列試過代碼但不給任何輸出 val ny_daily= sc.parallelize(List("hdfs://localhost:8020/user/user/NYstock /NYSE_daily")) val ny_daily_split = ny_daily.map(line =>line.

10熱度

2回答

星火的關鍵

我試圖用this guide使用星火主機上的EC2執行常見的抓取數據的簡單轉換組時，運行的內存，我的代碼看起來是這樣的： package ccminer import org.apache.spark.SparkContext import org.apache.spark.SparkContext._ object ccminer { val english = "engli

11熱度

1回答

如何從Eclipse/Intellij IDE運行簡單的Spark應用程序？

，以減輕我的地圖的發展減少對Hadoop的運行之前，實際部署的任務的Hadoop我測試用一個簡單的地圖減速器我寫的任務： object mapreduce { import scala.collection.JavaConversions._ val intermediate = new java.util.HashMap[String, java.util.List[Int

0熱度

1回答

與星火

存儲數據集從Spark documentation：星火可以在內存中緩存的數據集，以加快重用。 errors.cache() 我的理解是，Spark在內存默認情況下進行所有操作：在上面的例子，我們可以使用RAM加載剛剛的錯誤信息？那麼當一個操作的結果沒有被緩存時會發生什麼，默認情況下會持久化到磁盤上？或者這是否意味着操作的結果將會是在執行後會在內存中保留？

0熱度

2回答

將配置傳遞給Spark Job

我想要一個外部配置文件，我將它傳遞給SparkJobs。假設我是從組裝和配置上運行我的工作文件中對我的本地文件系統： spark-class my.assembly.jar my_application.conf 這將是巨大的，如果我可以訪問配置文件在火花的工作，但其不可能的，則執行其主要方法在另一個節點上。我一直在嘗試使用spark類的--files參數，但這似乎不起作用。類似行爲（以-

6熱度

2回答

Cassandra + Solr/Hadoop/Spark - 選擇合適的工具

我目前正在研究如何存儲和分析每行最多1000列的基於豐富時間的數據。目前，Cassandra與Datastax Enterprise提供的Solr，Hadoop或Spark似乎滿足了我對粗糙的要求。但魔鬼是在細節。在1000列中，大約60個用於實時查詢（網絡前端，用戶發送表單並期望快速響應）。這些查詢或多或少是GROUPBY語句，其中計數了一些或多個事件。由於卡桑德拉本身不提供所需的分析能力（

0熱度

1回答

Apache Spark從ArrayList中添加數字

我正在尋找一個Spark程序，它添加了一個現有的Integer ArrayList.I的元素，經歷了apache中的所有轉換和操作，但找不到合適的人來添加元素。如果有人可以告訴我如何編寫上面的代碼，即在spark中添加一個arraylist的元素，那麼它會很棒。謝謝。

1熱度

2回答

啓動PySpark在eclipse中使用python與Spark

如何在eclipse中使用python進行Spark程序？我已經在eclipse中安裝了PyDev插件，並在系統上安裝了Python，但我如何使用PySpark。