java字符串unicode代碼點轉換爲字符

好的，所以我覺得這個問題被問了很多次，但我無法找到答案。我正在比較兩個不同程序生成的兩個不同文件。當然，這兩個程序都是從相同的db查詢生成文件。我遇到以下區別：java字符串unicode代碼點轉換爲字符

S1 = Samsung - Mobile USB Chargers

與

S2 = Samsung \u2013 Mobile USB Chargers

如何轉換S2到S1，甚至更好，我該怎麼辦比較兩者沒有區別？在廣泛的互聯網上有人提到使用ApacheCommons-lang的StringUtils類，但我找不到任何有用的東西。

來源

2011-05-18 Mohamed Nuur

請注意，第一個字符串有一個ASCII連字符（HYPHEN-MINUS），而第二個字符串有一個EN-DASH。 – ninjalj 2011-05-18 22:15:40

嗯，所以你說的是兩個字符串不能以任何簡單的方式比較，除了做某種查詢表？ – 2011-05-18 23:31:29

您可以使用Dash_Punctuation property摺疊所有字符。

這段代碼打印true：

boolean equal = "Samsung \u2013 Mobile USB Chargers" 
        .replaceAll("\\p{Pd}", "-") 
        .equals("Samsung - Mobile USB Chargers"); 
System.out.println(equal);

注意，這將適用於所有角色與該屬性（如＆＃x3030; U + 3030 WAVY DASH）。具有Dash_Punctuation（Pd）屬性的完整字符列表在UnicodeData.txt中。 Java 6支持Unicode 4.有關標點符號的討論，請參見chapter 6。

來源

2011-05-18 23:39:17 McDowell

非常有趣。我認爲這讓我更接近我的答案，我會繼續研究。現在，我會給你接受的答案，並閱讀你分享的這個unicode鏈接。 – 2011-05-19 00:01:31

@Mohamed Nuur - 我對我的帖子做了一些更正;第6章中提到的一些破折號字符（如TILDE U + 007E）沒有Pd屬性。 – McDowell 2011-05-19 00:14:02

生成第一個字符串的程序使用字符替換回退機制以ASCII格式寫入該文件。第二個是用Unicode編寫文件。

這些可以通過使用相同的回退機制在ASCII中創建第二個文件的副本進行比較。

最好的解決方案是修改第一個程序，以便它也使用Unicode。

（這可能是第二個文件是使用比Unicode的其他東西，因爲一些其他字符集包括破折號。如果是這樣，那麼最好的解決辦法是寫在Unicode的這兩個文件，如果可能的話）。

來源

2011-05-18 22:22:10

無法更改任何輸出。是的，一個是寫在unicode，而另一個是ascii我相信。雖然我不是100％確定的。基本上一個是傳統的C++應用程序，而另一個是Java應用程序。所以我們注意到由於unicode字符/代碼點而導致的許多更改。忽略這些變化的最好方法是什麼？ – 2011-05-18 23:38:51

java字符串unicode代碼點轉換爲字符

回答

相關問題