爲什麼UTF-8字符串不等於Ruby 2.0中相應的ASCII-8BIT字符串？

我有以下字符串："\xFF\xFE"

我就包含它的文件做一個File.binread()，所以這個字符串的編碼是ASCII-8BIT。但是，在我的代碼中，我通過將字符串與"\xFF\xFE"（因爲所有的Ruby字符串默認情況下編碼爲UTF-8）進行比較來檢查該字符串是否確實被讀取。

然而，比較返回false，即使兩個字符串包含相同的字節 - 它只是碰巧，一個是與編碼ASCII-8BIT，另一個是UTF-8

我有兩個問題：（1）爲什麼它的回報false？（2）什麼是實現我想要的最好方法？我只想檢查我讀的字符串是否匹配"\xFF\xFE"

2017-10-18 horseyguy

如果你只是想讀取一個Unicode文件BOM，您可以傳遞BOM的UTF-8的[encoding]（http://ruby-doc.org/core-2.4.2/IO.html#method-c-new-label-IO+Encoding）「讓Ruby自動處理它。 – Stefan

（1）爲什麼它返回false？

比較字符串時，它們必須是相同的編碼，或者它們的字符必須在US-ASCII中可編碼。

比較將按預期如果字符串僅包含字節值0至127：（0b0xxxxxxx）

a = 'E'.encode('ISO8859-1') #=> "E" 
b = 'E'.encode('ISO8859-15') #=> "E" 

a.bytes #=> [69] 
b.bytes #=> [69] 
a == b #=> true

而如果它包含任何字節值失敗128至255：（0b1xxxxxxx）

a = 'É'.encode('ISO8859-1') #=> "\xC9" 
b = 'É'.encode('ISO8859-15') #=> "\xC9" 

a.bytes #=> [201] 
b.bytes #=> [201] 
a == b #=> false

您的字符串不能用US-ASCII表示，因爲它的字節在其範圍之外：

"\xFF\xFE".bytes #=> [255, 254]

試圖轉換它不產生任何有意義的結果：

"\xFF\xFE".encode('US-ASCII', 'ASCII-8BIT', :undef => :replace) 
#=> "??"

字符串因此將返回false被比較，以另一種編碼的字符串時，無論其內容。

（2）什麼是最好的方式去實現我想要的？

您可以將您的字符串與具有相同編碼的字符串進行比較。 binread返回一個字符串在ASCII-8BIT編碼，因此您可以使用b來創建一個兼容的一個：

IO.binread('your_file', 2) == "\xFF\xFE".b

，或者你可以比較其bytes：

IO.binread('your_file', 2).bytes == [0xFF, 0xFE]

2017-10-18 06:31:17 Stefan

但它的8位ascii和字符255和254被定義。那麼，那是怎麼回事？ ' 「\ XFF \ xFE如果」。編碼（'ASCII-8BIT'）'工作得很好。是否因爲它不是有效的UTF-8？ – horseyguy

沒有「8位ascii」這樣的東西。 ASCII一直是，並且一直是7位。 –

@banister你把'ASCII-8BIT'和'US-ASCII'混淆了，我的回答在這方面也不是很精確。我已經相應地更新了它。 – Stefan

回答