2016-09-21 116 views
0

文本塊和文本塊之間的區別是什麼包含正確的句子,即最好的算法,以包含單詞包含亂碼

The cat sat on the hat 

文本字符串和包含天書字符串區分的最好方式

$ $ #@^^sSss .....$$ 2 dzw6^^^#[email protected] ## @=^^ 

in java。

+1

你可以使用斯坦福分析器。 –

+1

或字典,只看看有多少比例的單詞匹配,也許有一些自動拼寫檢查。 –

回答

0

假設你沒有合適的解析器和解析器,字典的語言,或者你不知道的語言提前,一些假設可能會幫助你,例如:

  • 正確的文本是由單詞,它是由字母,單詞和一些標點符號之間的空格標記和也許號碼

  • 字具有典型範圍爲它們的長度,即使在語言,其允許任意長字(例如德語)

  • 通常,一個字是要麼全部小寫,初始大寫或全部大寫

編寫一個函數,爲這些假設測試字符串,在現有文本上運行多個測試,定義邊界字符串必須符合這些規則的邊界,才能被接受爲「正確的文本」。