2008-10-20 71 views
7

我有一個完整的小HTML文檔的數據庫,我需要以編程方式插入幾個到,比方說,一個PDF文檔與iText的使用Aspose.Words Word文檔。我需要在HTML文檔中保留任何格式(在合理範圍內,尊重標籤是必須的,像<這樣的CSS是很不錯的)。如何編程檢查HTML文檔

雙方的iText和閱讀Aspose工作(大致)大意:

Document document = new Document(Size.A4, Aspect.PORTRAIT); 

document.setFont("Helvetica", 20, Font.BOLD); 
document.insert("some string") 
document.setBold(true); 
document.insert("A bold string"); 

所以(我認爲)我需要某種HTML解析器將我可以檢查字符串和樣式插入到我的文檔中。

有人可以提出一個好的圖書館或明智的方法來解決這個問題嗎?平臺是Java

回答

2

HTMLparser是一個很好的HTML解析器。

我用它來解析我的一個項目中的HTML。

你可以寫自己的過濾器來解析你想要的東西的HTML,所以 <br>標籤應該不難分析出

呦可以解析出全光照CSS的CssSelectorNodeFilter

+0

這個建議讓我能夠在大約一個小時內完成一個我想要的基本版本,大約100行代碼。勝利者是你! – banjollity 2008-10-23 07:20:03

0

Adob​​e Acrobat Pro允許您通過HTTP抓取網站,並且在保留樣式和佈局方面做得非常出色。我沒有從API方面使用它,但它可能值得研究。

1

如果HTML是「格式良好的XML」(XHTML),爲什麼不使用XML解析器(如Xerces),然後以編程方式檢查DOM樹。

0

你」 d可能更適合獲取直接從HTML轉換爲PDF或Word的組件,然後嘗試解析HTML文檔並根據HTML自己複製格式。如果你想將HTML轉換爲PDF,並且你使用.Net,Winnovative提供了一個很好的解決方案。