從JSOUP解析的HTML中刪除轉義的文本

我正在使用包含一些元素的JSOUP解析HTML。然而，當我打印結果doc.html（），而不是：從JSOUP解析的HTML中刪除轉義的文本

<script language="JavaScript"> <a href="http://www.company.com/index.htm" </a> </script>

我越來越：

<script language="JavaScript"> &lt;a href=&quot;http://www.company.com/index.htm&quot; &lt;/a&gt; </script>

在代碼中，我做了操作如下所示：

for (final Element src : doc.select("script")) { 
data = data.replace(someText,newText); 
src.text(data); <==== I could find this method escapes the text }

我正在使用UTF-8字符集。

如何直接獲取未轉義的文本？在此先感謝！

來源

2012-04-23 simplysiby

您是否擁有對HTML源代碼的控制權？ – 2012-04-24 12:48:29

嘿感謝... 我們解決使用問題：我遇到了同樣的問題

src.childNode(0).attr("data", data);

來源

2012-04-24 13:03:21 simplysiby

使用.html()方法的所有幫助，而不是

src.html(data)

來源

2012-04-23 18:06:34

嘿謝謝..我試過這個...但仍然得到相同的輸出... – simplysiby 2012-04-24 09:24:07

。來自Apache Commons的StringEscapeUtils似乎可以做到這一點。

String html = StringEscapeUtils.unescapeHtml4(document.html());

國際海事組織它不是解決這一問題的最佳解決方案，但它爲我工作。

來源

2012-05-15 11:43:12 keyboardsurfer

從JSOUP解析的HTML中刪除轉義的文本

回答

相關問題