2017-01-03 81 views
0

我有2個文件以下內容合併多個文件,並寫入新文件沒有重複在Java中

file1.txt 
stack 1 
overflow 2 
frequency 4 

file2.txt 
stack 2 
overflow 1 
terms 5 

我想將多個文件合併這樣的創造與下面的輸出

final.txt 
stack 3 
overflow 3 
terms 5 
frequency 4 
一個新的文件

注:文件是非常大的規模

任何人可以幫助什麼是做這種方式嗎?

+0

嘗試使用'Map '來保存計數。 –

+0

我可以做到這一點,但文件是非常大的,所以會有很多的條款和計數,所以我可能會得到一些內存的問題。即將有超過2個文件是具體的將是7個文件。我們有任何更好的選擇? – premkumar

+0

您能否提供您迄今採取的步驟?你自己做了什麼嗎? –

回答

0

您可以試試Spark。 Spark建立在分佈式數據集的概念上,分佈式數據集包含任意的Java或Python對象。您從外部數據創建數據集,然後對其應用並行操作。

+0

我現在意識到sparks.do我們需要HDFS設置來運行這些火花作業?如果是這樣,我目前不能擁有那個 – premkumar

+0

不,你可以在我的github中看到我的例子。我從excel文件中讀取並執行操作。 https://github.com/nvtam2105/spark-demo –