2013-04-24 61 views
0

在我的Java應用程序中,我有必須編輯的字符串。問題是這些字符串可能包含HTML標記/元素,不應該被編輯(沒有id來檢索元素)。獲取Java中不是html的字符串的一部分

方案(加 - ):

String a = "<span> <table> </table> </span> <div></div> <div> text 2</div>"; 
should become: <span> <table> </table> </span> <div></div> <div> -text 2</div> 

String b = "text"; 
should become: -text 

String c = "<p> t </p>"; 
should become: <p> -t </p> 

我的問題是:我怎樣才能檢索到的字符串文本,它可以包含HTML標籤(可以不加標識或類)

回答

3

您可以使用XML解析庫。

String newText = null; 
for (Node node : document.nodes()) { 
    if (node.text() != null) newText = "-" + node.text(); 
} 

注意這是僞的。

newText現在將是-text或任何節點文本。

編輯: 你的問題是有點曖昧的術語「文本可以包含HTML元素。」
如果它不包含HTML標籤,那麼你就不能使用XML解析器,這帶來了問題..如果包含標籤,那麼爲什麼你就不能這樣做......

String newString = "-" + a; 
+0

謝謝你的回答。原因是我事先不知道字符串是否包含html – Attiej 2013-04-24 15:08:23