我正在嘗試編寫一行代碼,這些代碼將採用一行日文文本並刪除一組特定的字符。不過,我在正則表達式中使用unicode字符時遇到了麻煩。如何在Ruby的正則表達式中使用unicode字符?
我目前使用的text.gsub(/《.*?》/u, '')
,但我得到的錯誤
'gsub': invalid byte sequence in Windows-31J (Argument error)
誰能告訴我我在做什麼錯誤?
實施例文本:その仕草「しぐさ」があまりに無造作「むぞうさ」だったので
預期結果:その仕草があまりに無造作だったので
由於
編輯:# encoding: utf-8
是本在腳本的頂部。
是的,我有。對不起忘了我提到它。 – SomberClock 2012-03-05 02:06:56
我試過你的'irb'的例子,並得到了預期的結果。似乎問題不是正則表達式,而是'text'的編碼。 「文字」從哪裏來?從文件讀取? – 2012-03-05 02:16:23
您可以在此看一看: http://stackoverflow.com/questions/256822/how-to-use-regex-for-utf8-in-ruby – Nevin 2012-03-05 02:16:32