我正在使用Jsoup 1.9.2來處理和清理特定標記的某些XML輸入。在此期間,我注意到Jsoup在要求清潔title
標籤時表現得很奇怪。具體來說,title
標記中的其他XML標記不會被刪除,實際上它們會被其轉義表單所替代。Jsoup乾淨標題標記失敗
我爲此創建了一個簡短的單元測試,如下所示。測試失敗,因爲output
出來的值爲CuCl<sub>2</sub>
。
@Test
public void stripXmlSubInTitle() {
final String input = "<title>CuCl<sub>2</sub></title>";
final String output = Jsoup.clean(input, Whitelist.none());
assertEquals("CuCl2", output);
}
如果title
標籤被替換爲其它標籤(例如,p
或div
),則一切正常。任何解釋和解決方法將不勝感激。
http://stackoverflow.com/questions/8683018/jsoup-clean-without-adding-html-entities – maztt