apache-spark

33熱度

1回答

對於大數據項目，我計劃使用spark，它具有一些很好的功能，例如針對重複工作負載的內存計算。它可以在本地文件上運行，也可以在HDFS上運行。但是，在官方文檔中，我找不到任何有關如何處理gzip文件的提示。實際上，處理.gz文件而不是解壓縮文件可能非常有效。有沒有辦法手動實現讀gzipped文件或解壓縮已經自動完成閱讀.gz文件時？

4熱度

2回答

通話的獨特和映射到一起，拋出NPE火花庫

我不能確定這是否是一個錯誤，所以如果你做這樣的事情 // d:spark.RDD[String] d.distinct().map(x => d.filter(_.equals(x))) 你會得到一個Java NPE。不過，如果你distinct後立即做了collect，一切都會好起來的。我正在使用spark 0.6.1。

1熱度

1回答

如何Spark實現交互式內存中緩存？

我想知道一個程序是否結束，用於該程序的內存被GC釋放。當我在交互式scala解釋器中時如何在Spark中緩存數據？是指一次翻譯在一個過程中嗎？但是更常見的是，我使用終端來運行代碼，而不是在解釋器本身，在這種情況下，我該如何實現內存？

3熱度

3回答

使用spark訪問HDFS失敗

我使用的是Cloudera 4.2.0和Spark。我只想嘗試一下Spark給出的一些例子。 // HdfsTest.scala package spark.examples import spark._ object HdfsTest { def main(args: Array[String]) { val sc = new SparkContext(args(

75熱度

8回答

如何防止java.lang.OutOfMemoryError：Scala編譯時的PermGen空間？

我注意到了我的scala編譯器的一個奇怪的行爲。編譯類時偶爾會引發OutOfMemoryError。這裏的錯誤消息： [info] Compiling 1 Scala source to /Users/gruetter/Workspaces/scala/helloscala/target/scala-2.9.0/test-classes... java.lang.OutOfMemoryError

4熱度

1回答

鯊魚/火花引擎在查詢表格時拋出NPE

鯊魚/火花wiki的開發部分非常簡短，所以我嘗試將代碼放在一起以編程方式查詢表格。這是... object Test extends App { val master = "spark://localhost.localdomain:8084" val jobName = "scratch" val sparkHome = "/home/shengc/Downloa