apache-spark

    -2熱度

    2回答

    有沒有更簡單的方法在本地安裝Windows 7 64位上的Apache Spark?

    0熱度

    1回答

    我試圖使用Spark-shell命令加入兩個文本文件。我寫了以下代碼。 val a = sc.parallelize(List(("symbol", "CNN"), ("symbol", "CND"))) val b = sc.parallelize(List(("symbol", "CNN"), ("symbol1", "CNN"))) val joned = a.join(b) 但它顯

    1熱度

    1回答

    我想使用spark shell從HDFS加入兩個文件。 這兩個文件是製表符分隔,我想加入的第二列 試過代碼 但不給任何輸出 val ny_daily= sc.parallelize(List("hdfs://localhost:8020/user/user/NYstock /NYSE_daily")) val ny_daily_split = ny_daily.map(line =>line.

    10熱度

    2回答

    我試圖用this guide使用星火主機上的EC2執行常見的抓取數據的簡單轉換組時,運行的內存,我的代碼看起來是這樣的: package ccminer import org.apache.spark.SparkContext import org.apache.spark.SparkContext._ object ccminer { val english = "engli

    11熱度

    1回答

    ,以減輕我的地圖的發展減少對Hadoop的運行之前,實際部署的任務的Hadoop我測試用一個簡單的地圖減速器我寫的任務: object mapreduce { import scala.collection.JavaConversions._ val intermediate = new java.util.HashMap[String, java.util.List[Int

    0熱度

    1回答

    存儲數據集從Spark documentation: 星火可以在內存中緩存的數據集,以加快重用。 errors.cache() 我的理解是,Spark在內存默認情況下進行所有操作:在上面的例子 ,我們可以使用RAM加載剛剛的錯誤信息? 那麼當一個操作的結果沒有被緩存時會發生什麼,默認情況下會持久化到磁盤上? 或者這是否意味着操作的結果將會是在執行後會在內存中保留?

    0熱度

    2回答

    我想要一個外部配置文件,我將它傳遞給SparkJobs。假設我是從組裝和配置上運行我的工作文件中對我的本地文件系統: spark-class my.assembly.jar my_application.conf 這將是巨大的,如果我可以訪問配置文件在火花的工作,但其不可能的,則執行其主要方法在另一個節點上。 我一直在嘗試使用spark類的--files參數,但這似乎不起作用。 類似行爲(以-

    6熱度

    2回答

    我目前正在研究如何存儲和分析每行最多1000列的基於豐富時間的數據。目前,Cassandra與Datastax Enterprise提供的Solr,Hadoop或Spark似乎滿足了我對粗糙的要求。但魔鬼是在細節。 在1000列中,大約60個用於實時查詢(網絡前端,用戶發送表單並期望快速響應)。這些查詢或多或少是GROUPBY語句,其中計數了一些或多個事件。 由於卡桑德拉本身不提供所需的分析能力(

    0熱度

    1回答

    我正在尋找一個Spark程序,它添加了一個現有的Integer ArrayList.I的元素,經歷了apache中的所有轉換和操作,但找不到合適的人來添加元素。 如果有人可以告訴我如何編寫上面的代碼,即在spark中添加一個arraylist的元素,那麼它會很棒。 謝謝。

    1熱度

    2回答

    如何在eclipse中使用python進行Spark程序? 我已經在eclipse中安裝了PyDev插件,並在系統上安裝了Python,但我如何使用PySpark。