我正在處理文本語料庫。它包含屬於不同的語言,符號,數字等幾個大字如何使用Java查找非字母文字
- >所有我需要做的是跳躍如箭頭標記,心臟符號等符號
- >我不應該破壞不同語言的任何字符。
任何線索?
---- ---- UPDATE
Character.isLetter('\萬國碼)正在爲大多數,如果不是一些。我檢查了我的區域語言,似乎它對一些人有用,但不是每個人都適用。
謝謝。
我正在處理文本語料庫。它包含屬於不同的語言,符號,數字等幾個大字如何使用Java查找非字母文字
- >所有我需要做的是跳躍如箭頭標記,心臟符號等符號
- >我不應該破壞不同語言的任何字符。
任何線索?
---- ---- UPDATE
Character.isLetter('\萬國碼)正在爲大多數,如果不是一些。我檢查了我的區域語言,似乎它對一些人有用,但不是每個人都適用。
謝謝。
您可以實現僅包含所需字符的Charset
。然後,您可以提供一個CharsetDecoder
來解碼文本並去除您想跳過的字符。
如果我正確地讀取了,您想刪除的字符是一個相當有限的設置。爲什麼不檢查這些? Unicode有一大堆非字母字符,但就你而言,遇到的非字母字符可能只是存在的一小部分。
聽起來像正規表達式的工作,如果你問我。刪除所有不是單詞字符,數字或空格的東西,而且您可能已經擁有它了。或者創建一個包含你想要過濾的所有字符的數組(在這種情況下應該很少和已知)。
這個問題沒有很好的說明。您是否熟悉Unicode常規類別的工作方式?每個代碼點都屬於字母,數字,符號,標點,標記,分隔符或其他(通常是控件字符)中的一個。其中每個都有細分。 – tchrist 2011-02-02 14:24:29