2
我使用cyberneko和xerces清理HTML。 ! 然而,一些$#@@ @@網站還同時使用清洗混合類型<script>標籤
<script>...</script> and <script.../>
所以會發生什麼是這樣的:給定
<script..../> <div> Some Text </div> <script> scripting stuff </script> ,
ネ解析上述所有行的腳本,所以我得到
<script..../> < div > Some Text </div > < script > scripting stuff </script> ,
然後,我失去所有的內內容:(
有什麼建議?
大聲笑,顯然是stackoverflow的代碼解析器有相同的問題:) – Yossale 2010-04-26 12:41:37
我很驚訝,任何人曾經使用(自我封閉的腳本標籤)。輸出結束標籤的麻煩並不大,而且獎勵如此之大(完全兼容),你想知道他們認爲勝利對他們來說是什麼? – Robusto 2010-04-26 12:56:45
@Robusto,我完全同意。最令人討厭的是這些是大聯盟的內容網站! – Yossale 2010-04-26 13:29:37