我正在做一個HTML文本特徵提取器在C++中;該程序需要非常快速:我需要在每個html頁面中以ms爲單位提取這個功能,並且內存使用需要很好,最後unicode編碼很好。真正快速的C++ html解析器
我知道要完成所有這些工作是多麼困難,但我希望解析器至少能夠接近這些東西。
有人有建議嗎?
我正在做一個HTML文本特徵提取器在C++中;該程序需要非常快速:我需要在每個html頁面中以ms爲單位提取這個功能,並且內存使用需要很好,最後unicode編碼很好。真正快速的C++ html解析器
我知道要完成所有這些工作是多麼困難,但我希望解析器至少能夠接近這些東西。
有人有建議嗎?
整潔並不是很快。特別是因爲它是一個獨立的過程。 – EFraim 2010-04-08 18:20:16
你爲什麼想到libxml ++和Tidy?很多人推薦我使用Tidy來避免出現問題,使用@fraim html – Alessandro 2010-04-08 18:30:43
,Tidy有一個C++包裝器。 http://users.rcn.com/creitzel/tidy.html#cplusplus。所以它不會是一個單獨的過程,他可以將其編譯爲本地代碼。 – 2010-04-08 20:02:13
Near duplicate:http://stackoverflow.com/questions/489522/library-recommendation-c-html-parser – ChristopheD 2010-04-08 18:08:32
你嘗試過使用libxml(SAX/DOM/Pull)嗎?結果如何? – Pierre 2010-04-08 18:09:39
HTML!= XML。 HTML不是常規語言 – Malfist 2010-04-08 18:17:43