在可能的英文單詞邊界上分割字符串

我最近使用Adobe Acrobat Pro的OCR功能來處理日文漢字字典。輸出的總體質量總體上比我希望的要好一些，但是英文部分的文字界限往往已經消失。例如，這裏是從我的文件中的一行：在可能的英文單詞邊界上分割字符串

softening;weakening(ofthemarket)8 CHANGE [transform] oneselfINTO,takethe form of; disguise oneself

我可以去走一走，到處插入缺少的字邊界，但是這將是增加什麼已經是一個龐大的任務。我希望可能存在可以分析文本的軟件，其中一些單詞一起運行，並將文本分割爲可能的單詞邊界。有這樣一個包嗎？

我使用的是Emacs，所以如果問題的包已經是Emacs包或者可以很容易地集成到Emacs中，那麼它會更加甜美，這樣我就可以簡單地將光標放在上面的一行上並重復調用某些命令，以可能的正確性降序排列字邊界上的行。

2010-02-13 Sean

我也找不到任何東西，並最終以更多的interactive approach去。

2010-05-10 01:34:48 Sean

我不知道任何已經存在的東西。

最簡單的方法就是將字符串中包含的最長單詞與字典進行簡單匹配。當然可以有很多詞，所以你必須計劃所有的組合和排列。這樣做在計算上花費很大，但寫起來相當快。

2010-02-13 18:45:00 pestilence669

回答