我有它的樣本數據如下一個巨大的XML文件:
如何轉換XML文件,該文件是在非UTF-8格式的XML是UTF-8兼容
<vendor name="aglaia"><br>
<vendorOUI oui="000B91" description="Aglaia Gesellschaft für Bildverarbeitung ud Kommunikation m" /><br>
</vendor><br>
<vendor name="ag"><br>
<vendorOUI oui="0024A9" description="Ag Leader Technology" /><br>
</vendor><br>
,因爲它可以看到有文字「法理社會fürBildverarbeitung」,這是不是UTF-8兼容的,因爲它,我從XML驗證收到錯誤,如錯誤:
Import failed: com.sun.org.apache.xerces.internal.impl.io.MalformedByteSequenceException: Invalid byte 1 of 1-byte UTF-8 sequence.
所以查詢是如何照顧這在Linux環境下將xml文件轉換爲UTF-8兼容格式?或者有沒有在bash中的方法,以便在首先創建xml時,我可以確保所有變量/字符串都以UTF-8兼容格式存儲?
當前的XML標頭是否指定編碼?即是否有這樣的標題:'<?xml version =「1.0」encoding =「UTF-8」?>'如果是,編碼是什麼?如果文件沒有這個頭文件,你知道實際的編碼嗎? – 2011-06-13 21:39:00
這是我的腳本在創建xml時添加的頭文件,但正如我所說的那樣,它只是迴應到xml :: <?xml version =「1.0」encoding =「UTF-8」?> –
Nohsib
2011-06-13 21:45:50
真實問題是生成的XML是否有效,基於此,您必須更改XML生成器或使用能夠處理有效編碼的通用XML解析庫。 – sorin 2011-06-13 22:39:26