我使用BeautifulSoup和urllib2來下載HTML頁面並解析它們。問題在於HTML頁面格式不正確。儘管BeautifulSoup善於處理錯誤形成的HTML,但仍不如Firefox。使用Gecko/Firefox或Webkit得到了python中的HTML解析
考慮到Firefox或Webkit在處理HTML時更具有更新性和靈活性,我認爲使用它們構建和規範化頁面的DOM樹並通過Python進行操作是理想的。
但是我找不到任何python綁定相同。任何人都可以提出一種方法
我遇到了一些運行無頭Firefox過程並通過python操縱它的解決方案,但是有更多pythonic解決方案可用。
那也許是因爲你使用的是美麗的湯3.1是「做對現實世界的HTML版本相比確實3.0.7a惡化顯著」?[1] 不得不解析一些東西最近我自己發現3.0.7真的處理得更好。 使用easy_install切換到3.0.7a: sudo easy_install beautifulsoup == 3.0.7a [1] http://www.crummy.com/software/BeautifulSoup/3.1-problems.html – 2009-10-28 16:18:24