jsoup標籤提取問題

測試：例如
TEST1：例1

Elements size = doc.select("div:contains(test:)");

我怎樣才能提取值示例和示例1從該HTML標記....使用jsoup ..jsoup標籤提取問題

來源

2010-08-06 suraa

由於該HTML是沒有足夠的語義來達到最終目的（一個<br>不能有孩子，而:不是HTML），所以對於像Jsoup這樣的HTML解析器來說，你做不了什麼。 HTML解析器不適合執行特定的文本文字的提取/標記。

最好的辦法是使用Jsoup獲取<div>的HTML內容，然後使用通常的java.lang.String或者java.util.Scanner方法進一步提取該內容。

這裏有一個開球例如：

String html = "<div style=\"height:240px;\"><br>test: example<br>test1:example1</div>"; 
Document document = Jsoup.parse(html); 
Element div = document.select("div[style=height:240px;]").first(); 

String[] parts = div.html().split("<br />"); // Jsoup transforms <br> to <br />. 
for (String part : parts) { 
    int colon = part.indexOf(':'); 
    if (colon > -1) { 
     System.out.println(part.substring(colon + 1).trim()); 
    } 
}

這導致

 
example 
example1

如果我是HTML作者，我會用這個definition list。例如。

<dl id="mydl"> 
    <dt>test:</dt><dd>example</dd> 
    <dt>test1:</dt><dd>example1</dd> 
</dl>

這是多個語義，從而更容易可解析：

String html = "<dl id=\"mydl\"><dt>test:</dt><dd>example</dd><dt>test1:</dt><dd>example1</dd></dl>"; 
Document document = Jsoup.parse(html); 
Elements dts = document.select("#mydl dd"); 
for (Element dt : dts) { 
    System.out.println(dt.text()); 
}

來源

2010-08-11 21:49:15 BalusC

jsoup標籤提取問題

回答

相關問題