2010-05-20 112 views
1

我需要計算術語的術語頻率... 我所做的只是「計算該術語在該文檔中出現的次數」......如果該術語出現了138次我把tf的值作爲138 .... mi做對了.. ?? 當我讀到的地方 termfrequency(tf)= term term /文檔中沒有單詞...如果這是真的den如何計算文檔中的單詞no ......如果有一些正則表達式呢? ?期限頻率計算

請做reply..thankü

+0

基於以前的帖子關於這個主題由同一張海報,標記爲家庭作業。 – 2010-05-20 17:51:44

回答

0

在大多數正則表達式實現有一個單詞邊界,\b的概念。因此,匹配一個單詞的正則表達式可能如下所示:\b(\w+)\b

基本上,正則表達式的含義是:匹配單詞邊界,然後至少匹配1個單詞字符(\w+),然後再匹配單詞邊界。括號括起來只是將匹配的單詞添加到一個組中,以便稍後可以提取它。這對您來說可能不是必要的,所以如果您願意,您可以將其刪除。

我希望能幫助你一點。

+0

感謝球員....真的很感謝..我使用C# – jaskirat 2010-05-20 18:37:42

0

你沒有提及你使用的語言/程序。大多數文本編輯器會告訴你文檔中有多少單詞。在unix中,你可以使用'wc -w filename'命令。