0
我正試圖從上到下找到解析HTML文檔的最佳方法,並用 替換某些不同的標籤組並創建更新的文件。 我更喜歡使用Java,VB.NET或PHP。解析HTML文檔並替換整個標籤片段的最佳方法
有幾個類,如JSoup,傑里科等,這似乎是很好的替換特定的標籤,但我想要做的是取代/重寫整個段。
例如,我可能正在尋找一個表,如。
<table><tr><th>A header</th></tr><tr><td>Some text</td></tr><tr><td>More text</td></tr></table>
,我想用
<div class="header">A header</div><p>Some text. More text</p>
但是替換此,要離開這個HTML文件相同的其餘部分。
任何人都這樣做?什麼是最簡單的方法?你能推薦一個好的HTML解析器來使用嗎?
我解析的文檔是XHTML,所以我已經考慮使用java DOM或SAX工具,但是,我發現這些工作非常繁瑣,並且想知道是否有更好的方法來處理它,以及一些現有的類。
非常感謝任何幫助。
是的,我看了一下Jsoup,但正如我所說,似乎面向面對變化的特定的標籤,但我發現沒有替換一段標籤的例子。以一張表爲例,你可能不知道它包含多少行。或者也許沒有任何好的例子?在我的例子中,你將如何使用Jsoup來完成結果? – 2014-10-03 01:54:00