2010-04-26 33 views
2

我使用cyberneko和xerces清理HTML。 ! 然而,一些$#@@ @@網站還同時使用清洗混合類型<script>標籤

<script>...</script> and <script.../> 

所以會發生什麼是這樣的:給定

<script..../> <div> Some Text </div> <script> scripting stuff </script> , 

ネ解析上述所有行的腳本,所以我得到

<script..../> &lt div &gt Some Text &lt/div &gt &lt script &gt scripting stuff </script> , 

然後,我失去所有的內內容:(

有什麼建議?

+2

大聲笑,顯然是stackoverflow的代碼解析器有相同的問題:) – Yossale 2010-04-26 12:41:37

+0

我很驚訝,任何人曾經使用