我是新來pyspark如何分組數據存儲到JSON在pyspark
我有一個數據集,它看起來像(只有幾列的快照)
我希望將我的數據按鍵。我的關鍵是
CONCAT(a.div_nbr,a.cust_nbr)
我的最終目標是將數據轉換成JSON,格式化像轉換該
k1[{v1,v2,....},{v1,v2,....}], k2[{v1,v2,....},{v1,v2,....}],....
如
248138339 [{ PRECIMA_ID:SCP 00248 0000138339, PROD_NBR:5553505, PROD_DESC:Shot and a Beer Battered Onion Rings (5553505 and 9285840) , PROD_BRND:Molly's Kitchen,PACK_SIZE:4/2.5 LB, QTY_UOM:CA } ,
{ PRECIMA_ID:SCP 00248 0000138339 , PROD_NBR:6659079 , PROD_DESC:Beef Chuck Short Rib Slices, PROD_BRND:Stockyards , PACK_SIZE:12 LBA , QTY_UOM:CA} ,{...,...,} ],
1384611034793 [{},{},{}] ....
我創建了一個數據框(我將兩個表基本上得到一些更多的領域)
joinstmt = sqlContext.sql(
"SELECT a.precima_id , CONCAT(a.div_nbr,a.cust_nbr) as
key,a.prod_nbr , a.prod_desc,a.prod_brnd , a.pack_size , a.qty_uom , a.sales_opp , a.prc_guidance , a.pim_mrch_ctgry_desc , a.pim_mrch_ctgry_id , b.start_date,b.end_date
FROM scoop_dtl上(a.precima_id = b.precima_id)「)的聯接scoop_hdr B現在
,爲了得到上述結果,我需要GROUP BY結果基於關鍵,我做了以下
groupbydf = joinstmt.groupBy("key")
這導致INTP分組的數據和閱讀我知道,我不能直接使用它,我需要將其轉換回dataframes存儲之後。
我是新來的,需要一些幫助,以序轉換回dataframes或是否有任何其他的方式,以及我將不勝感激。
問題澄清:什麼變量「KVS」,「*鍵」和「值」對應於OP的例子? – Quetzalcoatl