apache-spark

    33熱度

    1回答

    對於大數據項目,我計劃使用spark,它具有一些很好的功能,例如針對重複工作負載的內存計算。它可以在本地文件上運行,也可以在HDFS上運行。 但是,在官方文檔中,我找不到任何有關如何處理gzip文件的提示。實際上,處理.gz文件而不是解壓縮文件可能非常有效。 有沒有辦法手動實現讀gzipped文件或解壓縮已經自​​動完成閱讀.gz文件時?

    4熱度

    2回答

    我不能確定這是否是一個錯誤,所以如果你做這樣的事情 // d:spark.RDD[String] d.distinct().map(x => d.filter(_.equals(x))) 你會得到一個Java NPE。不過,如果你distinct後立即做了collect,一切都會好起來的。 我正在使用spark 0.6.1。

    1熱度

    1回答

    我想知道一個程序是否結束,用於該程序的內存被GC釋放。 當我在交互式scala解釋器中時如何在Spark中緩存數據? 是指一次翻譯在一個過程中嗎? 但是更常見的是,我使用終端來運行代碼,而不是在解釋器本身,在這種情況下,我該如何實現內存?

    3熱度

    3回答

    我使用的是Cloudera 4.2.0和Spark。 我只想嘗試一下Spark給出的一些例子。 // HdfsTest.scala package spark.examples import spark._ object HdfsTest { def main(args: Array[String]) { val sc = new SparkContext(args(

    75熱度

    8回答

    我注意到了我的scala編譯器的一個奇怪的行爲。編譯類時偶爾會引發OutOfMemoryError。這裏的錯誤消息: [info] Compiling 1 Scala source to /Users/gruetter/Workspaces/scala/helloscala/target/scala-2.9.0/test-classes... java.lang.OutOfMemoryError

    4熱度

    1回答

    鯊魚/火花wiki的開發部分非常簡短,所以我嘗試將代碼放在一起以編程方式查詢表格。這是... object Test extends App { val master = "spark://localhost.localdomain:8084" val jobName = "scratch" val sparkHome = "/home/shengc/Downloa