2011-03-03 63 views
0
<TBODY> 
<TR> 
<TD colSpan=4>Detail of your Trip</TD></TR> 
<TR></TR> 
    <TR> 
    <TD colSpan=4>Booking Ref. : XXX</TD></TR> 
    <TR></TR> 
    <TR> 
    <TD>Client</TD> 
    <TD colSpan=2>Ticket Number</TD> 
    <TD>FOID</TD></TR> 
    <TR> 
    <TD>Person (ADT)</TD> 
    <TD colSpan=2>000000</TD> 
    <TD>XXXX</TD></TR> 
    <TR></TR> 
    <TR> 
    <TD>From: Location 1</TD> 
    <TD>To : Location 2</TD> 
    <TD colSpan=2>Flight : LLL</TD></TR> 
    <TR> 
    <TD colSpan=2></TD> 
    <TD colSpan=2>Departure : 14Aug, 15:55 Latest check-in time limit : 15:25 </TD></TR> 
    <TR> 
    <TD colSpan=2></TD> 
    <TD colSpan=2>Arrival : 17:25</TD></TR> 
    <TR> 
    <TD colSpan=2></TD> 
    <TD colSpan=2>Class N</TD></TR> 
    <TR> 
    <TD>From : Location 2</TD> 
    <TD>To :Location1</TD> 
    <TD colSpan=2>Flight : AF2585 Resa : OK</TD></TR> 
    <TR> 
    <TD colSpan=2></TD> 
    <TD colSpan=2>Departure : "Time" Latest check-in time limit : "Time" </TD></TR> 
    <TR> 
    <TD colSpan=2></TD> 
    <TR> 
    <TD colSpan=2></TD> 

我想解析這個HTML和得到這樣的旅行者name..trip日期解析HTML來創建一個XML

細節和創建XML。

回答

1

我對HTMLCleaner有一些很好的經驗(http://htmlcleaner.sourceforge.net/javause.php)。 它很簡單,並創建格式良好的XML。

+0

HtmlCleaner cleaner = new HtmlCleaner(); CleanerProperties props = cleaner.getProperties(); props.setTranslateSpecialEntities(true);現在你認爲字符串數據是否包含清理過的XML? props.setTransResCharsToNCR(true); props.setOmitComments(true); //解析 TagNode tagNode; tagNode = new HtmlCleaner(props).clean(emailContent); String data = tagNode.toString(); – 2011-03-03 15:03:27

+2

我這樣做得到它作爲字符串︰final HtmlCleaner cleaner = new HtmlCleaner(); String result = new SimpleXmlSerializer(cleaner.getProperties())。getXmlAsString(cleaner.clean(parseString)); – Don 2011-03-03 16:08:37

+1

使用XPath的更好的例子可以在這裏找到(http://thinkandroid.wordpress.com/2010/01/05/using-xpath-and-html-cleaner-to-parse-html-xml/) – Don 2011-03-03 16:13:25

1

由於XSLT是某種聖盃,它解決了幾乎所有問題,我建議您使用「Html Tidy」或使用可將HTML轉換爲xhtml並使用XSLT提取數據的Java庫來獲取HTML到xhtml你想使用。

相關問題