有什麼辦法湊超出這個第一頁:與不變的URL和JS的Python刮頁面鏈接
https://www.sportstats.ca/display-results.xhtml?raceid=23666
我已經試過硒在過去有過不同程度的成功。我覺得它很沉重,有時它不起作用,有時會掛起。如果可能,我寧願避免它,只是使用urllib.request,並使用標頭/ cookies來查找我正在查找的數據。
這些路障:
1)當你去到另一個網頁的URL不會改變。
2)鏈接進入下一個頁面(例如)是JS什麼的,是不容易處理:
<li><a id="mainForm:j_idt341" href="#" class="ui-commandlink ui-widget fa fa-angle-right" onclick="PrimeFaces.ab({s:"mainForm:j_idt341",p:"mainForm",u:"mainForm:result_table mainForm:pageNav mainForm:eventAthleteDetailsDialog",onco:function(xhr,status,args){hideDetails('athlete-popup');showDetails('event-popup');scrollToTopOfElement('mainForm\\:result_table');;}});return false;"></a>
任何人都可以點我在正確的方向,通過這種走路,刮每一頁。
爲什麼你刪除了這個問題?我正在研究它20分鐘,最後得到了一個解決方案。請取消刪除它:http://stackoverflow.com/questions/33427870/python-selenium-scrape-hidden-data。 – alecxe