1
我需要分析一個文檔並編譯統計每個單詞序列使用的次數(因此分析不是單個單詞而是一批重複出現的單詞)。我讀過壓縮算法做了類似於我想要的 - 使用一段報告其頻率的信息創建文本塊的字典。 它應該是類似於http://www.codeproject.com/KB/recipes/Patterns.aspx 你有什麼用C#寫的嗎?句子分析和標記化的算法
我需要分析一個文檔並編譯統計每個單詞序列使用的次數(因此分析不是單個單詞而是一批重複出現的單詞)。我讀過壓縮算法做了類似於我想要的 - 使用一段報告其頻率的信息創建文本塊的字典。 它應該是類似於http://www.codeproject.com/KB/recipes/Patterns.aspx 你有什麼用C#寫的嗎?句子分析和標記化的算法
這很容易實現。
使用Split(字符串類的成員函數)將字符串拆分爲單詞。 (你可以在codeproject url中使用分隔符)。
循環列舉所有n-gram並使用Dictionary<string, int>
來計數。