2016-06-07 54 views
-1

我有印地文含有30000字的文本文件約。我必須從文件中獲取唯一的單詞並將其保存爲表格形式。 我正在嘗試這個java.But我不知道如何做到這一點。 任何人都可以幫忙嗎?java代碼獲取和存儲在印地文語言輸入文本文件中的獨特單詞

+0

是否有一個特定的原因,那些30'000字不在數據庫中?你如何定義你需要找到的獨特單詞?用正則表達式? – Gildraths

+0

從意義上說,重複的不包括在內的獨特單詞。只需要一個詞的出現就可以保存在表格中。 原因是我必須從文件中區分停用詞,根詞和詞根。 –

+0

因此,基本上在30,000個單詞中有例如15,000個單詞(沒有雙重條目),您想要以表格形式保存,對嗎? 表格形式如何,它是以gui顯示還是保存在Excel表格中,或者它背後的想法是什麼? – Gildraths

回答

0

我建議你使用Set http://docs.oracle.com/javase/6/docs/api/java/util/Set.html來存儲你的字符串。

優點是它不允許超過一次的值。這裏舉一個例子:

Set<String> storage = new HashSet<String>; //use TreeSet<String> if you need to sort the values 
storage.add("dog"); 
storage.add("cat"); 
storage.add("cat"); 

for(String name: set) { 
    System.out.println(name); //Values are: dog, cat 
} 

你可以像這樣讀取文件:Reading a plain text file in Java

基本上可以將它作爲明文與「,」之間保存爲csv。那麼你可以很容易地將它導入excel

相關問題