2014-10-03 144 views
0

我正試圖從上到下找到解析HTML文檔的最佳方法,並用 替換某些不同的標籤組並創建更新的文件。 我更喜歡使用Java,VB.NET或PHP。解析HTML文檔並替換整個標籤片段的最佳方法

有幾個類,如JSoup,傑里科等,這似乎是很好的替換特定的標籤,但我想要做的是取代/重寫整個段。

例如,我可能正在尋找一個表,如。

<table><tr><th>A header</th></tr><tr><td>Some text</td></tr><tr><td>More text</td></tr></table> 

,我想用

<div class="header">A header</div><p>Some text. More text</p> 

但是替換此,要離開這個HTML文件相同的其餘部分。

任何人都這樣做?什麼是最簡單的方法?你能推薦一個好的HTML解析器來使用嗎?

我解析的文檔是XHTML,所以我已經考慮使用java DOM或SAX工具,但是,我發現這些工作非常繁瑣,並且想知道是否有更好的方法來處理它,以及一些現有的類。

非常感謝任何幫助。

回答

0

是的,你需要一個html解析器來輕鬆正確地解析html。您可以使用

jsoup: Java HTML Parser

jsoup是一個Java庫與現實世界的HTML工作。它爲 提供了一個非常方便的API,用於提取和操作數據,使用DOM的最好的 。

這很簡單,只要這種使用湯解析HTML:

String html = "<table><tr><th>A header</th></tr><tr><td>Some text</td></tr><tr><td>More text</td></tr></table>"; 
Document doc = Jsoup.parse(html); 
+0

是的,我看了一下Jsoup,但正如我所說,似乎面向面對變化的特定的標籤,但我發現沒有替換一段標籤的例子。以一張表爲例,你可能不知道它包含多少行。或者也許沒有任何好的例子?在我的例子中,你將如何使用Jsoup來完成結果? – 2014-10-03 01:54:00