2011-12-20 94 views
1

如果我沒有錯誤,中文語言(和其他語言)不使用空格' '作爲字分隔符。計算字符串中的字數(不僅是拉丁語言)

那麼這可能是一個很好的算法,在國際上工作?

+1

這取決於該語言的單詞定界符。出於好奇,中文單詞如何結束? – Indranil 2011-12-20 23:47:33

+0

這是一個很好的問題。 – dynamic 2011-12-20 23:48:11

+2

這裏是答案:http://www.anycount.com/WordCountBlog/tag/word-count-in-chinese/ – 2011-12-20 23:54:34

回答

3

我見過的技巧很簡單,就是簡單地計算所使用的字符數,並將其除以中文每個單詞的平均字符數。通常用於此的數字是1.5

如果您的中文文本有1500個字符,則它大約有1000個字。

我不知道更精確的計算單詞的方法,除了解釋文本本身。這意味着要真正理解所使用單詞的上下文,因爲中文字符有時可以單獨用作單詞,也可以用作複合詞的組成部分。

+0

這似乎是正確的比例:http://www.proz.com/forum/linguistics/58362-word_count_for_chinese.html。 「1.35:1〜1.8:1。通常我們取1.5:1」 – 2011-12-21 00:02:59