閱讀任何具有奇怪編碼的文本文件？

我有一個帶有奇怪編碼「UCS-2 Little Endian」的文本文件，我想用Java讀取它的內容。閱讀任何具有奇怪編碼的文本文件？

Opening the text file using NotePad++

正如你可以在上面的截圖中看到文件的內容出現在記事本++很好，但是當我使用此代碼讀它，只是垃圾被打印在控制檯：

String textFilePath = "c:\strange_file_encoding.txt" 
BufferedReader reader = new BufferedReader(new InputStreamReader(new FileInputStream(filePath), "UTF8")); 
String line = ""; 

while ((line = reader.readLine()) != null) { 
    System.out.println(line); // Prints garbage characters 
}

重點是用戶選擇要讀取的文件，因此它可以是任何編碼，並且由於我無法檢測到文件編碼，我使用「UTF8」對其進行解碼，但是如上例所示，它無法正確讀取。

有沒有正確的方式閱讀這些奇怪的文件？或者至少我可以檢測到我的代碼是否會讀取不正確？

來源

2013-03-19 Brad

您使用UTF-8作爲您的編碼InputStreamReader構造函數，所以它會嘗試將字節解釋爲UTF-8而不是UCS-LE。這裏是文檔：Charset

我想你需要使用UTF-16LE根據它。

這裏是所支持的字符集及其Java名稱的詳細信息： Supported Encodings

來源

2013-03-19 22:34:59 tempoc

非常感謝。正如我的問題所述，主要問題是這不是唯一使用的文本文件。用戶選擇要讀取的文件，並且它可以有任何編碼，那麼「UTF-16LE」會讀取任何具有任何編碼的文本文件嗎？ – Brad 2013-03-19 22:41:11

有沒有一個絕對的方式，但給這個鏡頭：[juniversalchardet]（https://code.google.com/p/juniversalchardet/） – tempoc 2013-03-19 22:51:38

您在InputStreamReader中提供了錯誤的編碼。如果使用UTF8，您是否嘗試過使用UTF-16LE？

BufferedReader reader = new BufferedReader(new InputStreamReader(new FileInputStream(filePath), "UTF-16LE"));

根據Charset：

UTF-16LE十六位UCS轉換格式，小尾數字節爲了

來源

2013-03-19 22:34:28

不能使用UTF-8編碼的所有文件，特別是如果你不知道會發生哪些文件編碼。使用它可以檢測文件編碼庫的讀入文件之前，例如：juniversalchardet或jChardet

欲瞭解更多信息請參閱Java : How to determine the correct charset encoding of a stream

來源

2013-03-19 22:52:21

這。如果你不知道字符集，你必須嘗試檢測它。 ICU4J是另一個可以嘗試的庫。 – 2015-08-07 15:16:14

閱讀任何具有奇怪編碼的文本文件？

回答

相關問題