如何編程檢查HTML文檔

我有一個完整的小HTML文檔的數據庫，我需要以編程方式插入幾個到，比方說，一個PDF文檔與iText的或使用Aspose.Words Word文檔。我需要在HTML文檔中保留任何格式（在合理範圍內，尊重標籤是必須的，像<這樣的CSS是很不錯的）。如何編程檢查HTML文檔

雙方的iText和閱讀Aspose工作（大致）大意：

Document document = new Document(Size.A4, Aspect.PORTRAIT); 

document.setFont("Helvetica", 20, Font.BOLD); 
document.insert("some string") 
document.setBold(true); 
document.insert("A bold string");

所以（我認爲）我需要某種HTML解析器將我可以檢查字符串和樣式插入到我的文檔中。

有人可以提出一個好的圖書館或明智的方法來解決這個問題嗎？平臺是Java

來源

2008-10-20 banjollity

HTMLparser是一個很好的HTML解析器。

我用它來解析我的一個項目中的HTML。

你可以寫自己的過濾器來解析你想要的東西的HTML，所以 <br>標籤應該不難分析出

呦可以解析出全光照CSS的CssSelectorNodeFilter

來源

2008-10-20 20:26:47

這個建議讓我能夠在大約一個小時內完成一個我想要的基本版本，大約100行代碼。勝利者是你！ – banjollity 2008-10-23 07:20:03

Adobe Acrobat Pro允許您通過HTTP抓取網站，並且在保留樣式和佈局方面做得非常出色。我沒有從API方面使用它，但它可能值得研究。

來源

2008-10-20 14:51:03

如果HTML是「格式良好的XML」（XHTML），爲什麼不使用XML解析器（如Xerces），然後以編程方式檢查DOM樹。

來源

2008-10-20 15:31:53 Vinze

你」 d可能更適合獲取直接從HTML轉換爲PDF或Word的組件，然後嘗試解析HTML文檔並根據HTML自己複製格式。如果你想將HTML轉換爲PDF，並且你使用.Net，Winnovative提供了一個很好的解決方案。

來源

2008-10-20 20:36:44 Kibbee

查看flying saucer xhtml renderer - 它們將格式良好的XHTML文件渲染爲PDF，並讓您使用CSS控制輸出。

來源

2008-10-21 01:36:03

如何編程檢查HTML文檔

回答

相關問題