2013-02-09 108 views
2

我正在尋找更好的想法從html文件中提取表格。現在我使用整潔(http://tidy.sourceforge.net/)將html文件轉換爲xhtml,然後使用rapidxml解析xml。解析時,我會查找<table>,<tr><td>節點,並創建我的表數據結構。用c/C++從html文件中以編程方式提取表格

它的工作原理相當不錯,但如果有更好的方法來完成我的任務,我想知道。整潔的lib也像是一個被遺棄的項目。

也有大家有沒有試過在整潔的源代碼中的「實驗性」補丁?

感謝, 基督教

+0

http://stackoverflow.com/questions/489522/library-recommendation-c-html-parser – romar 2013-02-09 20:57:36

+0

的可能的複製所以你只是尋找一個XML或HTML解析替代庫? – LihO 2013-02-09 21:04:48

+0

我正在尋找想法從HTML使用C或C++提取表格。 – chhenning 2013-02-09 21:07:24

回答

0

我覺得你的做法是相當確定。我認爲最好的做法是整理並將html轉換爲xhtml並解析xml。看不到如何簡化。

所以我不知道是什麼問題你沒有提到任何問題。

相關問題