2012-04-23 111 views
4

我正在使用包含一些元素的JSOUP解析HTML。 然而,當我打印結果doc.html(),而不是:從JSOUP解析的HTML中刪除轉義的文本

<script language="JavaScript"> <a href="http://www.company.com/index.htm" </a> </script> 

我越來越:

<script language="JavaScript"> &lt;a href=&quot;http://www.company.com/index.htm&quot; &lt;/a&gt; </script> 

在代碼中,我做了操作如下所示:

for (final Element src : doc.select("script")) { 
data = data.replace(someText,newText); 
src.text(data); <==== I could find this method escapes the text } 

我正在使用UTF-8字符集。

如何直接獲取未轉義的文本? 在此先感謝!

+0

您是否擁有對HTML源代碼的控制權? – 2012-04-24 12:48:29

回答

4

嘿感謝... 我們解決使用問題:我遇到了同樣的問題

src.childNode(0).attr("data", data); 
0

使用.html()方法的所有幫助,而不是

src.html(data) 
+0

嘿謝謝..我試過這個...但仍然得到相同的輸出... – simplysiby 2012-04-24 09:24:07

0

。來自Apache Commons的StringEscapeUtils似乎可以做到這一點。

String html = StringEscapeUtils.unescapeHtml4(document.html()); 

國際海事組織它不是解決這一問題的最佳解決方案,但它爲我工作。