我有一個RDD的字符串。每行對應各種日誌。映射函數寫在全局火花rdd
我有一個單一函數中的多個正則表達式匹配RDD的行以應用適應的正則表達式。
我想在RDD上映射這個獨特的函數,因此它可以快速處理每一行,並將每行處理存儲在另一個全局rdd中。
問題是,因爲我希望這項任務能夠並行化,所以我的全局RDD必須可以同時訪問以添加每條處理過的行。
我想知道是否有其他方式來做到這一點或任何事情!我期待着提高我的火花技能。
例如,這就是我想做的事:
我有這樣一個txt:
錯誤:Hahhaha PARAM_ERROR = 8 param_err2 = HTTPS
警告:HUHUHUHUH param_warn = tchu param_warn2 = wifi
我的正則表達式函數會將包含「ERROR」的行與數組匹配,例如Array("Error","8","https")
而另一個正則表達式函數將匹配包含「警告」與陣列例如Array("Warning","tchu","wifi")
行最後,我想獲得用於處理每一個線條RDD[Array[String]]
。
如何讓它與Spark並行?
「我有一個單一功能的多個正則表達式匹配/情況下,RDD的線條應用適應正則表達式」 - 可以你編輯你的文章以包含這個函數的_signature_? –