2017-06-13 67 views
0

我的數據在我的sparkdataframe(df)中有24個特徵,第25列是我的目標變量。我想在此dataset上安裝我的​​型號,其輸入格式爲org.nd4j.linalg.api.ndarray.INDArray, org.nd4j.linalg.dataset.Datasetorg.nd4j.linalg.dataset.api.iterator.DataSetIterator。如何將我的dataframe轉換爲所需的類型?輸入火花數據幀到DeepLearning4J模型

我也嘗試使用管道方法直接向模型輸入火花數據幀。但dl4j-spark-ml的sbt依賴不起作用。我的build.sbt文件是:

scalaVersion := "2.11.8" 

libraryDependencies += "org.deeplearning4j" %% "dl4j-spark-ml" % "0.8.0_spark_2-SNAPSHOT" 

libraryDependencies += "org.deeplearning4j" % "deeplearning4j-core" % "0.8.0" 

libraryDependencies += "org.nd4j" % "nd4j" % "0.8.0" 

libraryDependencies += "org.nd4j" % "nd4j-native-platform" % "0.8.0" 

libraryDependencies += "org.nd4j" % "nd4j-backends" % "0.8.0" 

libraryDependencies += "org.apache.spark" %% "spark-core" % "2.0.1" 

libraryDependencies += "org.apache.spark" %% "spark-sql" % "2.0.1" 

有人可以從這裏引導我嗎?提前致謝。

回答

0

您可以使用已讀取spark.ml集成的快照。 如果你想使用快照,添加OSS Sonatype的庫: https://github.com/deeplearning4j/dl4j-examples/blob/master/dl4j-examples/pom.xml#L16 在寫這篇文章時的版本是: 0.8.1-SNAPSHOT

請覈實最新版本的例子回購雖: https://github.com/deeplearning4j/dl4j-examples/blob/master/pom.xml#L21

你不能混用dl4j的版本。您嘗試使用的版本是非常過期(超過一年)。請升級到最新版本。

新spark.ml整合的例子可以在這裏找到: https://github.com/deeplearning4j/deeplearning4j/tree/master/deeplearning4j-scaleout/spark/dl4j-spark-ml/src/test/java/org/deeplearning4j/spark/ml/impl

確保添加適當的依賴,這是典型的像 org.deeplearning4j:dl4j火花毫升_ $ {您的SCALA BINARY VERSION}:0.8.1_spark _ $ {你的火花版本(1或2)-SNAPSHOT

+0

我試過使用'「org.deeplearning4j」%%「dl4j-spark-ml」%「0.8.0_spark_2-SNAPSHOT」 。但它仍然沒有工作。我編輯完整的build.sbt文件的問題。請檢查一次。 – Ishan

+0

我說0.8。* 1 *讓我更明確: https://oss.sonatype.org/內容/重positories/snapshots/org/deeplearning4j/dl4j-spark-ml_2.11/0.8.1_spark_2-SNAPSHOT /它絕對存在。你不應該遇到任何問題。 ^^^ –

+0

我不得不在「https://oss.sonatype.org/content/repositories/snapshots/」使用'resolvers + =「scala-tools.org」來使它工作。謝謝你告訴我這件事。但我想要的是使用 - org.deeplearning4j.spark.ml.classification.NeuralNetworkClassification,但似乎這個類不可用。你有什麼想法嗎?我想要的只是將我的火花數據框輸入到dl4j模型中。 – Ishan