1
我試圖從本網站中刪除房地產數據:example 正如您所看到的相關內容被放置到文章標記中。使用Selenium和python發佈JavaScript腳本生成的內容抓取
我正在與硒phantomjs:
driver = webdriver.PhantomJS(executable_path=PJSpath)
然後我產生蟒蛇的URL,因爲所有的搜索結果鏈接的一部分,所以我可以搜索什麼,我正在尋找的程序無需填寫表格。
在致電
driver.get(engine_link)
我複製engine_link到剪貼板,並在打開Chrome瀏覽器的罰款。 接下來,我等待所有可能的重定向發生:
def wait_for_redirect(wdriver):
elem = wdriver.find_element_by_tag_name("html")
count = 0
while True:
count += 1
if count > 5:
print("Waited for redirect for 5 seconds!")
return
time.sleep(1)
try:
elem = wdriver.find_element_by_tag_name("html")
except StaleElementReferenceException:
return
現在終於我想所有<article>
標籤遍歷當前頁面:
for article in driver.find_elements_by_tag_name("article"):
但這個循環永遠不會返回任何東西。該程序沒有找到任何文章標籤,我用xpath和css選擇器試過。而且,這些文章被封在一個章節標籤中,這也是無法找到的。
Selenium中的這種特定類型的標籤有問題嗎?或者我在這裏丟失了與JS有關的東西?在頁面的底部有一些JavaScript模板,其名稱暗示它們會生成搜索結果。
任何幫助表示讚賞!
是的用戶代理的伎倆。謝謝! – Thanados