2012-08-15 60 views
1

我有如下所示Java Html解析器提取特定數據?

... 
<span itemprop="A">234</span> 
... 
<span itemprop="B">690</span> 
... 

在此,我想ü可以建議對Java,可以很容易做到這一點的任何HTML解析器庫中提取值A和B.
一個html文件?

回答

3

個人而言,我傾向於JSoup超過JTidy。它有CSS-selectors,文檔更好,恕我直言。隨着JSoup,可以方便地與以下行提取這些值:

Document doc = Jsoup.connect("your_url").get(); 
Elements spans = doc.select("span[itemprop]"); 

for (Element span : spans) { 
    System.out.println(span.text()); // will print 234 and 690 
} 
+0

我不想提取A和B,但其他值234和690 – 2012-08-15 14:27:13

+1

@vivek_jonam:然後使用'文本()'代替,它給你'span'的內容。我編輯了我的答案。 – 2012-08-15 14:28:16

+0

好的。作品。但是,我能單獨獲得A和B的價值嗎?還有其他itemprop值,如A1,C,E等。 – 2012-08-15 14:33:18

1

JTidy是一個令人困惑的命名但受尊敬的HTML解析器。