1
我在解析HTML時使用了JTidy和xpath,但暫時解析文本會導致我有點麻煩,因爲它可能包含內部的b標籤,所以我不想循環它子節點,但只需在加載html後刪除'b'標籤。使用JTidy從html中刪除所需的標籤
如何從DOM文檔中刪除標記。
Document doc = tidy.parseDOM(url.openStream(), System.out);
爲它例如僞碼 - doc.removeTag('<b>');
這可能嗎?
這裏的配置選項http://tidy.sourceforge.net/docs/quickref.html列表,使更換b與強大,但這些都是選擇。我們可以重寫其中的一些嗎? – 2013-04-09 08:26:00