2014-11-09 131 views
2

我有一個網站,我想點擊一個按鈕,然後使用python按鈕之間的HTML代碼刮網站是:在網站上點擊按鈕,然後刮網頁

<span id="exchange-testing" class="exchange-input nav-link" data track="&amp;lid=testing&amp;lpos=site_settings" data-value="testing">Testing</span> 

這可能嗎?我能夠從頁面上抓取所需的所有數據,但我需要先點擊按鈕。

任何幫助,將不勝感激

回答

8

基本上,你有兩個選擇:

  • 高層次的方法:使用selenium或自動化一個真正的瀏覽器,換言之,使瀏覽器重複用所需的數據訪問頁面所需的所有用戶操作。

  • 低級別的方法:當您單擊按鈕,探討什麼是引擎蓋下發生 - 探索的瀏覽器開發者工具「網絡」選項卡,看到正在做什麼請求。然後,在你的刮刀中模擬它們。在這裏,您可以考慮使用諸如requestsmechanize之類的工具來提出請求,處理抓取會話,提交表單等,以及諸如用於解析HTML的BeautifulSoup,lxml.html之類的工具。另外,Scrapy網絡抓取框架是必須看到的。