0
測試:例如
TEST1:例1
Elements size = doc.select("div:contains(test:)");
我怎樣才能提取值示例和示例1從該HTML標記....使用jsoup ..jsoup標籤提取問題
Elements size = doc.select("div:contains(test:)");
我怎樣才能提取值示例和示例1從該HTML標記....使用jsoup ..jsoup標籤提取問題
由於該HTML是沒有足夠的語義來達到最終目的(一個<br>
不能有孩子,而:
不是HTML),所以對於像Jsoup這樣的HTML解析器來說,你做不了什麼。 HTML解析器不適合執行特定的文本文字的提取/標記。
最好的辦法是使用Jsoup獲取<div>
的HTML內容,然後使用通常的java.lang.String
或者java.util.Scanner
方法進一步提取該內容。
這裏有一個開球例如:
String html = "<div style=\"height:240px;\"><br>test: example<br>test1:example1</div>";
Document document = Jsoup.parse(html);
Element div = document.select("div[style=height:240px;]").first();
String[] parts = div.html().split("<br />"); // Jsoup transforms <br> to <br />.
for (String part : parts) {
int colon = part.indexOf(':');
if (colon > -1) {
System.out.println(part.substring(colon + 1).trim());
}
}
這導致
example example1
如果我是HTML作者,我會用這個definition list。例如。
<dl id="mydl">
<dt>test:</dt><dd>example</dd>
<dt>test1:</dt><dd>example1</dd>
</dl>
這是多個語義,從而更容易可解析:
String html = "<dl id=\"mydl\"><dt>test:</dt><dd>example</dd><dt>test1:</dt><dd>example1</dd></dl>";
Document document = Jsoup.parse(html);
Elements dts = document.select("#mydl dd");
for (Element dt : dts) {
System.out.println(dt.text());
}