配置的Xerces SAX解析器容忍的XML語法錯誤

解析不正確生成的XML文檔時，我得到這個錯誤：配置的Xerces SAX解析器容忍的XML語法錯誤

org.xml.sax.SAXParseException: The value of attribute "bar" associated with an element type "foo" must not contain the '<' character.

我知道是什麼原因造成的問題。這是這一行：

<foo bar="x<y">42</foo>

應該已經

<foo bar="x&lt;y">42</foo>

我知道，這不是有效的XML，但我的代碼必須下載和分析類似的文件無人值守和出於政治原因，它可能不可能說服供應商修復有問題的程序，尤其是當其他程序正在讀取文件並容忍此錯誤時。

有什麼辦法可以配置Xerces來容忍它嗎？目前它將其視爲致命錯誤。實現ErrorHandler忽略它是不令人滿意的，因爲然後文檔的其餘部分未被解析。

或者，你可以建議另一個可以配置爲容忍這個錯誤的基於流的解析器嗎？使用DOM解析器不可行，因爲這些文檔會運行到數百兆字節。

來源

2010-07-23 finnw

這是一個政治問題。它需要政治解決方案，而不是技術方案。 – 2010-07-23 07:25:28

Xerces可能不會容忍它，但是像jsoup這樣的替代庫（https://jsoup.org/）可能更適合這種情況。它看起來最初是爲HTML設計的，但是我已經使用它來成功地從錯誤的XML中讀取數據。 http://stackoverflow.com/questions/9886531/how-to-parse-xml-with-jsoup – 2016-10-17 21:43:30

我不認爲你會找到任何可以容忍這種錯誤的XML解析器。我可以建議的唯一事情就是預先處理XML以消除可能發生的錯誤。

來源

2010-07-23 04:41:08 Dunderklumpen

有關預處理的有趣之處，如果你想到它在所提供的示例中使用，那就是你需要理解各種XML上下文，如新節點的開始等。換句話說，一些基本的XML解析邏輯本身需要完成，它可以識別上下文中對XML編碼的需求並應用它。看起來它會涉及像OP想要的那樣編寫一個「寬容」的XML解析器。 – 2010-07-23 10:46:39

@Vineet。問題在於它不能以一般方式完成。預處理需要基於@ finnw關於供應商XML應該是什麼樣的知識，觀察到的錯誤的系統化以及基於模式的匹配和糾正來完成。沒有使用@ finnw的知識，可能會有很多可能的更正，並且沒有辦法讓假設的容錯解析器選擇正確的解析器。 – 2010-07-23 12:15:02

@Stephen，這就是爲什麼預處理不能成爲一攬子解決方案的原因。可以使用正則表達式和其他方案來發現這些錯誤，但是如果它們是隨機的並且可能出現在任何屬性值或文本節點中，那麼是什麼？ – 2010-07-23 12:21:15

...和出於政治原因，它可能無法說服供應商來修復錯誤程序......

出於政治原因，你應該嘗試您damnedest讓他們要解決這個問題。在他們面前提出需求規格說明輸入必須是格式良好的XML。威脅要開發一個定製解析器的費用向他們收費。（好吧，這可能不會起作用...）

放棄而不打架，你只是讓問題麻煩其他人在未來不得不與這個供應商打交道。

來源

2010-07-23 04:57:14

配置的Xerces SAX解析器容忍的XML語法錯誤

回答

相關問題