2010-01-29 154 views
5

通常我使用lxml來滿足我的HTML解析需求,但在Google App Engine上不可用。明顯的替代方案是BeautifulSoup,但我發現它很容易在格式錯誤的HTML上扼殺。目前我正在測試libxml2dom並且獲得了更好的結果。GAE的HTML解析器

您發現哪種純Python HTML解析器性能最好?我的優先考慮是能夠處理糟糕的HTML速度。

+0

衛生署! libxml2不包含在GAE上的Python中,因此libxml2dom不在 – hoju 2010-01-29 13:41:14

回答

5

BeautifulSoup documentation:3.1.0美麗的湯的

版本並顯著惡化對現實世界的HTML比3.0.8版本並

所以,它可以幫助你使用這個較早的版本。這正是作者自己所推薦的。

您可以假裝Beautiful Soup 3.1.0版本從未發佈。版本3.0.8在Python 2.3到2.6中仍然正常工作。

+0

感謝您的支持 - 3.0.8的性能更好,但它仍然無法有效地解析網頁。 此外,BS作者已經失去了進一步開發它的興趣,所以我最好在其他地方投入時間。 – hoju 2010-02-02 01:42:16