2010-02-13 100 views
1

我最近使用Adobe Acrobat Pro的OCR功能來處理日文漢字字典。輸出的總體質量總體上比我希望的要好一些,但是英文部分的文字界限往往已經消失。例如,這裏是從我的文件中的一行:在可能的英文單詞邊界上分割字符串

softening;weakening(ofthemarket)8 CHANGE [transform] oneselfINTO,takethe form of; disguise oneself 

我可以去走一走,到處插入缺少的字邊界,但是這將是增加什麼已經是一個龐大的任務。我希望可能存在可以分析文本的軟件,其中一些單詞一起運行,並將文本分割爲可能的單詞邊界。有這樣一個包嗎?

我使用的是Emacs,所以如果問題的包已經是Emacs包或者可以很容易地集成到Emacs中,那麼它會更加甜美,這樣我就可以簡單地將光標放在上面的一行上並重復調用某些命令,以可能的正確性降序排列字邊界上的行。

回答

1

我不知道任何已經存在的東西。

最簡單的方法就是將字符串中包含的最長單詞與字典進行簡單匹配。當然可以有很多詞,所以你必須計劃所有的組合和排列。這樣做在計算上花費很大,但寫起來相當快。