2012-02-16 67 views
0

我需要從html文件中提取所有標籤和單詞(按時間順序)。這裏是文件的示例: one two thre 我在輸出中想要的是一個數組或列表,如下所示: {「」,「one」,「two」,「thre」,「」} 知道有諸如jTidy或Apache Tina之類的工具,但這些工具僅用於從文檔中提取文本(或僅標記)。 我該怎麼辦?解析來自HTML中的單詞和標籤在Java中

回答

1

爲此使用JSoup庫。它使Java中的HTML解析非常簡單。