UTF-8編碼字符串匹配的話我想匹配所有單個單詞在給定的字符串,只要字符串是UTF-8編碼,然後我拼寫檢查每一個字。一切正常,我的代碼,只要它的英純文本,但如果有一些,比如說,德國的字符,我的話被兩對這些字符分割。我如何匹配文本中包含拉丁字母和非拉丁字符的單個單詞?與1.9.1
我現在要做的是:
text.gsub(/[\w\']+/) do |word| "replacement" end
但這對於含有「oooäuuu」文本將結束與「replacementäreplacement」,即:德語字符不被視爲單詞的一部分。
你能澄清什麼會構成一個字斷?你是否期待「簿記員」分成「書」和「守護者」? – Chowlett 2010-01-12 12:03:15