我正在處理作爲以下形式的鍵值對的大型數據集:每個新行分隔記錄,數據集包含一個鍵:每行的值對。如何使用Spark將大型文本文件轉換爲關係模式?
cat_1/key_1: a value
cat_1/key_2: a value
cat_2/key_3: a value
cat_1/key_1: another value
cat_2/key_3: another value
我的目標是將這個文本文件轉換成一個數據框,其中的記錄可以很容易地保存在一個表中。
在另一個編程範例中,我可能會迭代該文件,並在遇到換行符時將記錄寫入另一個數據結構。不過,我正在尋找一種更加慣用的方式來完成這個Spark。
對於在創建新的RDD之後處理\n
作爲記錄分隔符,其中每行都被映射到line.split(": ")
,我仍被卡在Spark中的最佳方法。
你需要提供你嘗試過什麼(代碼明智)至今,爲了讓我們的HLEP [斯卡拉解析多條記錄]的 –
可能的複製(http://stackoverflow.com/q/34157104/ 1560062) – zero323