spark無法創建LabeledPoint

2016-08-13 49 views -1 likes

-1

我總是得到這個錯誤： AnalysisException：由於數據類型不匹配，u「無法解析'substring（1,1，-1）'：參數1需要（字符串或二進制）類型，但' l'是陣列類型的;「spark無法創建LabeledPoint

很混亂，因爲l [0]是一個字符串，並且與arg 1匹配。 dataframe只有一列名爲'value'的列，它是一個逗號分隔的字符串。我想將此原始數據框轉換爲LabeledPoint對象的另一個數據框，第一個元素爲'label'，其他元素爲'features'。

from pyspark.mllib.regression import LabeledPoint 

def parse_points(dataframe): 

    df1=df.select(split(dataframe.value,',').alias('l')) 
    u_label_point=udf(LabeledPoint) 
    df2=df1.select(u_label_point(col('l')[0],col('l')[1:-1])) 
    return df2 

parsed_points_df = parse_points(raw_data_df)

來源

2016-08-13 Siyao

您應該改善的問題，我無法理解這一點。 –

回答

我想你在dataframe中創建LabeledPoint。所以，你可以：

高清parse_points（DF）：

df1=df.select(split(df.value,',').alias('l')) 
df2=df1.map(lambda seq: LabeledPoint(float(seq[0][0]),seq[0][1:])) # since map applies lambda in each tuple 
return df2.toDF() #this will convert pipelinedRDD to dataframe

parsed_points_df = parse_points（raw_data_df）

來源

2016-08-13 14:44:17 kinkajou

謝謝。這種方法完美的工作。但是我仍然不明白爲什麼使用udf會給出錯誤？ – Siyao

@Siyao udf中的參數不正確 – kinkajou

相關問題

1. Apache Spark MLlib LabeledPoint空標籤問題
2. Apache Spark MLlib - 從數據獲取LabeledPoint（Java）
3. Spark上的Hive無法正常工作 - 創建Spark客戶端失敗
4. Pyspark LabeledPoint錯誤
5. Hive on Spark：無法創建火花客戶端
6. 無法在spark中創建DynamoDB客戶端執行程序
7. Spark Dataframes已成功創建，但無法寫入本地磁盤
8. 無法創建
9. 無法創建
10. 無法創建
11. 無法創建
12. 無法創建
13. Apache Spark Parquet：無法建立空的組
14. 無法使用MAVEN構建Apache spark
15. 無法創建Word.Application
16. 無法創建TableLayout
17. 無法創建MemoryStream
18. 無法創建JiraRestClient
19. 無法創建ThirdPartyResource
20. 無法創建OpenJPAEntityManagerFactory
21. 無法創建ValueProxy
22. 無法創建AngularJS
23. 無法創建UITableViewDataSource
24. 無法創建UIButton
25. 無法創建cqlengine
26. 無法創建AsynchronousHttpClientFactory
27. 無法創建莢
28. 無法創建EntityManager
29. 無法創建AVD
30. 無法創建JVM