我有一個json和csv文件,其內容相同,內容爲1.8m亞馬遜的評論。處理json比csv多核多慢
我正在執行2個操作:DataFrame行數和生成文本數據的TFIDF。我用1,2,4和8個內核嘗試了這個操作。隨着內核數量的增加,基於csv的DataFrame的處理速度成比例增加,但基於json的保持不變。
行計數例如:
data = spark.read.format("csv").option("header", "true").load("path/amazon_half.csv")
%timeit -n 10 data.count()
djs = spark.read.format("json").option("header", "true").load("path/amazon_half.json")
%timeit -n 10 djs.count()
所附表表示以秒爲與不同數量的核的執行這些操作的時間。
我期望處理JSON和CSV具有相同數據所需的時間將是或多或少相等。這是正常的,如果是這樣,是否有一種方法來處理json的速度與csv中的spark相同?
你的問題是? –
對不起,添加了這個問題。 –