2012-07-30 64 views
2

我對識別任何給定正文文本是否包含有效實際單詞或只是亂碼文本感興趣。確定文本正文是否包含有效單詞或只是「亂碼」

我立即遇到的問題是它需要與語言無關,因爲我們處理的數據是高度國際化的。這意味着要麼是統計方法,要麼是一個非常大的多語言哈希表方法。

多語言哈希表看起來很簡單,但很笨重,可能很慢。 (或者至少是速度和準確性之間的妥協。)

但是,我並沒有真正的統計方法背景,在這種情況下對我很有用,並且非常感謝任何人的體驗或輸入,或任何其他建議。

+0

如果您使用任何種類的統計分析,生成符合標準的「亂碼」就會變得很容易。 – TheZ 2012-07-30 16:47:20

+0

是的,我希望可以提供一個至少可以提供門檻的東西。仔細閱讀,計算熵似乎可能是要走的路,而且至少可以幫助將大量文本分成「可能的實際語言」和「不太可能的實際語言」。 – 2012-07-30 16:50:22

+0

我不認爲多語言哈希表變得不可避免地笨重和緩慢。存儲數十億字的大型國際字典現在應該不是什麼大問題,即使是大字典,字典查找也會保持快速。您必須解決的問題是爲您想要支持的每種語言找到一個大的單詞列表。而且:你如何定義亂碼?你是否想要將有意義的文本與包含有效英文單詞但沒有任何意義的文本分開?對於一個人來說有時並不容易,祝你好運:-) – 2012-07-30 16:54:31

回答

1

您可以使用ngram分析將您的文本與示例文本進行比較。這可以是字符或單詞。

谷歌的NGram Viewer可以幫助形象化我的意思。例如,如果我搜索「黑線鱈冰箱」,那麼就沒有發生(例如它是胡言亂語),而「堆棧溢出」表明一旦計算機發生,突然出現的事件就會出現。

+0

我看着n-gram。我實際上已經交出了完整的谷歌正片組,而它的數據量爲850GB,但它只涵蓋了十幾種語言。這是一個好主意,根據我在這裏看到的回覆來判斷,這可能是我最終採取的方法。 – 2012-07-30 17:06:02

1

您是否知道或可以確定文檔的語言?我不認爲爲一種語言加載字典並計算有效字的百分比會非常緩慢或佔用大量內存。

它需要多準確?

+0

我試圖做到沒有語言檢測,主要是因爲很多文檔都可以是多語言的。就準確性而言,理想情況下,我們可以使用一個閾值,然後根據需要使用它來使其更準確。 – 2012-07-30 17:08:22

相關問題