通常我使用lxml來滿足我的HTML解析需求,但在Google App Engine上不可用。明顯的替代方案是BeautifulSoup,但我發現它很容易在格式錯誤的HTML上扼殺。目前我正在測試libxml2dom並且獲得了更好的結果。GAE的HTML解析器
您發現哪種純Python HTML解析器性能最好?我的優先考慮是能夠處理糟糕的HTML速度。
通常我使用lxml來滿足我的HTML解析需求,但在Google App Engine上不可用。明顯的替代方案是BeautifulSoup,但我發現它很容易在格式錯誤的HTML上扼殺。目前我正在測試libxml2dom並且獲得了更好的結果。GAE的HTML解析器
您發現哪種純Python HTML解析器性能最好?我的優先考慮是能夠處理糟糕的HTML速度。
不再是一個問題 - LXML支持: https://developers.google.com/appengine/docs/python/tools/libraries27
它在GAE中可用嗎?或者我必須自己包括。 – 2013-02-13 09:55:07
現在包含lxml – hoju 2013-02-14 10:29:20
從BeautifulSoup documentation:3.1.0美麗的湯的
版本並顯著惡化對現實世界的HTML比3.0.8版本並
所以,它可以幫助你使用這個較早的版本。這正是作者自己所推薦的。
您可以假裝Beautiful Soup 3.1.0版本從未發佈。版本3.0.8在Python 2.3到2.6中仍然正常工作。
感謝您的支持 - 3.0.8的性能更好,但它仍然無法有效地解析網頁。 此外,BS作者已經失去了進一步開發它的興趣,所以我最好在其他地方投入時間。 – hoju 2010-02-02 01:42:16
衛生署! libxml2不包含在GAE上的Python中,因此libxml2dom不在 – hoju 2010-01-29 13:41:14