2009-08-03 74 views

回答

0

Beautiful Soup應該是你要搜索的東西。它是一個html/xml解析器,可以處理無效頁面並允許遍歷特定標籤。

+0

lxml比BS更好地處理無效頁面。使用lxml.html中的css選擇器遍歷標籤更容易。 – aehlke 2009-08-03 20:35:53

8

其他人推薦BeautifulSoup,但使用lxml好多了。儘管它的名字,它也用於解析和刮取HTML。它比BeautifulSoup快得多,它甚至比BeautifulSoup(他們的聲望)更好地處理「破碎的」HTML。如果您不想學習lxml API,它也具有用於BeautifulSoup的兼容性API。

Ian Blicking agrees

沒有理由再使用BeautifulSoup,除非您使用的是Google App Engine或其他任何不是純粹Python不允許的東西。

+0

我聽說過lxml的好東西。人們應該嘗試一下,然後做出選擇。 – Geo 2009-08-03 18:48:36

相關問題