我是Spark
和Scala
的新手,我試圖執行從文本文件中的數據創建圖形的簡單任務。如何使用Spark Scala中的Graph.fromEdgeTuples從CSV文件創建圖形
從文檔
https://spark.apache.org/docs/0.9.0/api/graphx/index.html#org.apache.spark.graphx.Graph $ @ fromEdges [VD,ED]%28RDD [邊緣[ED],VD%29%28ClassTag [VD],ClassTag [ED]%29:圖[VD,ED]
我可以看到我可以從tuples of vertices
創建一個圖表。
我簡單的文本文件看起來像這樣,每個數字是一個頂點:
v1 v3
v2 v1
v3 v4
v4
v5 v3
當我從文件中讀取
VAL myVertices = myData.map數據(線=> line.split(「」)) 我得到一個RDD [數組[String]]。
我的問題是:
如果這是解決這個問題的正確方法,我怎麼轉
RDD[Array[String]]
成正確的格式,其中根據文檔RDD[(VertexId, VertexId)]
(也VertexID
必須是long類型的,而且我正在使用字符串)是否有其他替代方法,我可以通過類似於csv文件的結構構建圖表?
任何建議將是非常受歡迎的。謝謝!
非常感謝,這位:val edgesRDD:RDD [(VertexId,VertexId)] = file.map(line => line.split(「」)) .map(line => (MurmurHash.stringHash (line(0).toString),MurmurHash.stringHash(line(1).toString)))正是我正在尋找 –