2015-04-02 89 views
1

我就從Twitter收集數據,並在其上進行處理的工作,以乾淨的髒的文字,但我有一個問題:文字是髒的,如何用java

例如:

String dirtyText="this*is#a*&very_dirty&String"; 

例如:

String dirtyText="All f dis happnd bcause u gave ur time, talent n passion."; 

請讓我儘可能簡單。

+0

你的輸入髒字符串與你輸出的髒字符串不匹配? – 2015-04-02 16:16:43

+0

對於我們建議的解決方案,您必須告訴我們您的要求是什麼意思的「乾淨」 – Samuel 2015-04-02 16:18:45

+0

第一個可能是通過刪除非字母字符可行。但是沒有「簡單」的方法來做第二個 – ortis 2015-04-02 16:19:02

回答

0

這不是一個容易解決的問題。 All f dis happnd可以被「清理」以產生All *of* this happenedAll *if* this happened。對於第一個例子,您只能用空格替換所有非字母字符。請參閱this question瞭解如何操作。

否則我認爲你需要一個自然語言處理器,或者至少是一個拼寫檢查器。猜測Tweet應該以正確的英文表達是一個非常複雜的問題。看看Jazzy的開源拼寫檢查器。