apache-spark

2熱度

1回答

範圍是從HDFS讀取，在Spark中過濾並將結果寫入Cassandra。我是包裝和SBT運行。這裏是問題：從HDFS到Spark的讀取需要在我的sbt構建文件中有以下行。 libraryDependencies += "org.apache.hadoop" % "hadoop-client" % "2.0.0-cdh4.5.0" 然而，讀，通過 val casRdd = sc.newAP

0熱度

1回答

當數據大小大於內存時PySpark是否提供了優勢？

在處理數據太大而無法完全加載到內存中時，PySpark是否提供了任何優勢？我試圖將這個（和其他功能）與基於IPy Parallel的方法進行比較。

5熱度

1回答

如何在火花中使用jni？

我想用jni在spark中調用我的C++ lib。當我運行我的程序時，它顯示java.lang.UnsatisfiedLinkError：java.library.path中沒有hq_Image_Process，所以顯然程序找不到我的hq_Image_Process.so。在Hadoop中，-files可以xxx.so文件分發到這樣的奴隸： [[email protected] ~]$ hado

139熱度

5回答

Spark java.lang.OutOfMemoryError：Java堆空間

我的集羣：1個主節點，11個從節點，每個節點有6 GB內存。我的設置： spark.executor.memory=4g, Dspark.akka.frameSize=512 這裏的問題是：首先，我從HDFS讀取一些數據（2.19 GB）到RDD： val imageBundleRDD = sc.newAPIHadoopFile(...) 第二，在這個RDD上做些事情： val res

2熱度

1回答

更改庫SBT中特定代碼段的依賴關係？

我正在用SBT構建一個Spark項目。當我包含一個庫依賴項，程序的一部分將工作，另一部分將拋出一個異常（因爲在libraryDependencies中指定了錯誤的版本）。當我刪除libraryDependencies時，這是相反的。有沒有辦法在編譯或運行時動態更改libraryDependencies（更改版本）？到（僞）類似： libraryDependencies.set("org.ap

0熱度

1回答

通過Shark API查詢不起作用

我想通過Shark Java API從羣集上的Hive表進行查詢（簡單選擇）。不過，我收到此錯誤信息： 14/01/15 17:25:54 INFO cluster.ClusterTaskSetManager: Loss was due to java.lang.NoClassDefFoundError java.lang.NoClassDefFoundError: Could not ini

4熱度

2回答

爲什麼spark-ec2失敗並顯示ERROR：找不到任何現有的集羣？

我最近下載了Spark，並試圖通過Spark-ec2訪問我的第一個集羣。我使用的命令： export AWS_ACCESS_KEY_ID=<myid> export AWS_SECRET_ACCESS_KEY=<mykey> ./spark-ec2 -k my-key-pair -i my-key-pair.pem -s 2 -t m1.small -w 360 launch Spark

81熱度

3回答

Apache Spark：map vs mapPartitions？

RDD'smap和mapPartitions方法有什麼區別？ flatMap的行爲如同map還是像mapPartitions？謝謝。（編輯）即有什麼區別（無論是語義或執行方面） def map[A, B](rdd: RDD[A], fn: (A => B)) (implicit a: Manifest[A], b: Manifest[B]): RDD[B] = { r

4熱度

1回答

如何使用Java高效讀取Hadoop（HDFS）文件中的第一行？

我在我的Hadoop集羣上有一個很大的CSV文件。文件的第一行是一個'標題'行，它由字段名組成。我想在這個標題行上執行操作，但我不想處理整個文件。另外，我的程序是用Java編寫的並使用Spark。在Hadoop集羣中讀取大型CSV文件的第一行的有效方法是什麼？

2熱度

2回答

「./sbt/sbt assembly」錯誤「Apache Spark項目的無效命令：assembly」

我在Ubuntu 13.04上安裝Apache Spark時遇到了問題。我使用spark-0.8.1-incubating，並且./sbt/sbt update和./sbt/sbt compile都正常工作。但是，當我做了./sbt/sbt assembly我得到以下錯誤： [info] Set current project to default-289e76 (in build file:/n