2011-07-12 136 views
0

嘿,我想解析一些數據,我發送給我一個字符串的HTML。 我想要的數據是大寫,我將在這裏命名爲DATAx。 數據的長度是任意的。從字符串解析htmltags java/gwt

http://pastebin.mozilla.org/1270216

還有更多的線路像這樣的,我必須解析。

thx for answears!

+0

您需要提供一些關於您試圖從該String中提取的數據類型的更多信息,稱其爲'DATAx'在這種情況下沒有幫助。也沒有分隔符(如每個數據之間的逗號),這可能是非常困難的。 – Arj

+0

試圖讓代碼進入帖子:) – Alb

+0

它的字符串和雙打我想從html獲得 – Alb

回答

2

我和jsoup有過很好的運氣。它使用jQuery風格的dom節點選擇器,並且可以使用HTML片段,即使格式非常不好。

+0

ok thx我看看它 – Alb

+0

http://jsoup.org/cookbook/input/parse-document-從字符串我可以從不同的ID和標籤獲得純文本? – Alb

+0

@Alb - 是的。通過例子。具體來說,這一個:http://jsoup.org/cookbook/extracting-data/attributes-text-html – cdeszaq

0

我不知道jsoup,但TagSoup是一個很棒的HTML解析庫。我已經在一個生產系統中使用了幾年(至少)數萬個(至少)的網頁,而且我們從來沒有從TagSoup那裏得到過單一的失敗。它甚至可以處理最可怕的格式化HTML想象。