我正在尋找一種算法,提示或任何可以解決我以下問題的源代碼。如何計算java中的單詞
我有一個文件夾,它包含許多文本文件。我閱讀並將所有文本存儲在STRING中。現在我想計算一下,如果有任何單詞出現在其他文件中或者沒有。 (我知道它的不明確讓我舉一個例子)
,比如我有兩個文件: 文件A =>「棕色狐狸跳」 督B =>「狗不跳」 文件C =>「狐狸跳狗「
假設我的程序讀取了第一個文檔,現在第一個單詞是」棕色「,現在我的程序會檢查這個單詞是否也出現在任何其他文檔中?所以答案是0.現在它將再次檢查第二個單詞「狐狸」,它會給出輸出,是的,它出現在(文件C)等...... 現在它會讀取文件B,它會檢查狗是否出現在其他文件?答案是(Doc C)等......
任何建議或僞代碼?提示:它也被稱爲逆文檔頻率(Idf)。我知道什麼是idf。
這是一個功課問題嗎?如果是這樣,通過使用「家庭作業」標籤並且允許讀者相應地調整他們的答案,對其透明是一個好主意。 – 2009-12-31 01:59:39
使用位集合。每次工作。 – 2009-12-31 02:20:49