據我所知,BeautifulSoup和lxml能夠提取html元素的dom結構。但我想自己做,因爲我需要一個沒有庫存限制的高性能爬蟲。所以有沒有一種「簡單」的方式來提取html元素的DOM結構而不使用Python庫?
是否有一種「簡單」的方式來提取html元素的dom結構而不使用python庫?
我問這是因爲我想通過僅在網站的前端搜索來查找html元素,然後在知道我想要哪個元素之後,我需要此元素的dom路徑。
例如,計算器標誌的此頁面上的DOM路徑是:
html > body.ask-page.new-topbar > div.container > div#header > div#logo > a
您需要*東西*實現[HTML5解析器算法](https://html.spec.whatwg.org/multipage/syntax.html#parsing)。你當然可以* *實現一個自己比Python更高性能的語言,準確地提供你想要的API,然後將其包裝成Python的,但它是一個可怕的很多工作...... – zwol