spark-graphx

    1熱度

    2回答

    我們已經編寫了一些代碼,通過使用Spark 1.6.1和Scala 2.10在Scala中編寫的GraphX連接和鏈接數據集。 如果我們在spark-shell中運行此代碼,它將在30分鐘內完成10個執行程序,每個執行程序10個內存& 5 cpu。 如果我們在一個帶有spark-submit的胖罐子裏運行這個過程,那麼這個過程會因爲內存不足錯誤而失敗,並且需要一個半小時才能到達那個點。 有沒有人有

    0熱度

    1回答

    我很努力地理解我將如何在Apache Spark的GraphX中創建以下內容。我給出如下: node: ConnectingNode1, ConnectingNode2.. 例如: 123214: 521345, 235213, 657323 我需要以某種方式保存在這個數據 一個HDFS,其具有附帶的表格數據的加載文件EdgeRDD,以便我可以在GraphX中創建我的圖形,但我不知道我將如何去做這

    1熱度

    1回答

    我有一個文件,其中包含srcId - > dstId值,它們表示我使用GraphLoader edgeListFile加載的圖形的邊,源代表用戶和目標項,在某些情況下,srcId和dstId是相等的,所以在某些算法中存在錯誤,例如當我想要收集每個頂點的鄰居時。我可以做些什麼來分離用戶和物品,也不會丟失任何信息

    1熱度

    1回答

    什麼是使用Graphx查找程序的總執行時間的最可靠方式,最好是使用歷史記錄服務器還是使用System.currentTimeMillis()或其他程序中的程序使用變量?

    0熱度

    1回答

    尋找在我的Windows機器上使用SparklyR的Spark-Shell安裝Hadoop/Spark來運行GraphX示例。我能夠啓動從安裝目錄中的殼在這裏第一次: start C:\\Users\\eyeOfTheStorm\\AppData\\Local\\rstudio\\spark\\Cache\\spark-2.0.0-bin-hadoop2.7\\bin\\spark-shell

    -1熱度

    1回答

    我從RDD構建一個圖形源節點和目的節點的元組的,就像這樣: Graph.fromEdgeTuples(rawEdges = edgeList, 1) 首先,我不明白的第二個參數是什麼。從文檔, 默認值頂點與屬性來創建的邊緣引用頂點 我還是不明白這一點。 其次,我找不到任何東西來計算最大組件的大小。沒有執行foreach,也沒有執行map或reduceByKey,或調用connectedComp

    1熱度

    1回答

    我想在圖上做一些消息傳遞來計算遞歸功能。 當我定義頂點爲aggregateMessages的輸出的圖時,出現錯誤。規範方面 > val newGraph = Graph(newVertices, edges) newGraph: org.apache.spark.graphx.Graph[List[Double],Int] = [email protected] //This is the

    4熱度

    1回答

    我從gz壓縮的json文件創建edge和vertices類型的圖形。 我已經把文件收存箱文件夾here 加載和映射這些json記錄,以創建由graphx這樣所需的vertices和edge類型: val vertices_raw = sqlContext.read.json("path/vertices.json.gz") val vertices = vertices_raw.rdd.map(

    0熱度

    1回答

    我最近開始使用火花。目前我正在測試具有不同頂點和邊緣類型的二分圖。 從我在graphx中做的研究得到不同的邊和一些有屬性的我需要子類的邊。 下面是代碼片段: scala> trait VertexProperty defined trait VertexProperty scala> case class paperProperty(val paperid: Long, val papern

    0熱度

    2回答

    嗨我對Scala非常陌生,試圖運行這個簡單的代碼,但我無法得到它編譯: /* SimpleApp.scala */ import org.apache.spark.SparkContext import org.apache.spark.SparkContext._ import org.apache.spark.SparkConf import org.apache.spark._