2012-03-12 88 views
0

我想分析這些原因的HTML文件:解析Java中的HTML?

  1. 要標記之間的獲取內容。例如,在一對para標籤之間
  2. 查找break標籤的發生
  3. 獲取標籤的屬性。例如,要獲取COLOR的值FONT COLOR =「red」>

我需要在Java中執行此操作。我知道Jehrico解析器的基礎知識。我該怎麼做?

+1

你的實際問題是什麼? – Robert 2012-03-12 09:52:06

+0

我猜想有一些格式錯誤。你現在明白了這個問題嗎? – 2012-03-12 10:09:17

回答

2

如果您要解析的HTML是XHTML,它也應該是有效的XML。 所以任何XML解析器都應該能夠解析它。

如果你不能依靠這個,你可以搜索谷歌的HTML解析器的Java。

+0

在java中可以將HTML轉換爲XHTML嗎? – 2012-03-12 10:06:47

+0

我認爲JTidy應該可以勝任這項工作。 – 2012-03-12 10:15:19

10

沒有。 Java的HTML解析器可用,如:

你也可能要經歷的優點和使用各的利弊非常全面的討論這些here

+2

我之前使用過jsoup,並且發現它對我需要做的事很好。 – Joeblackdev 2012-03-12 10:00:22

+0

好吧檢查出來.. – 2012-03-12 10:07:02