2017-07-25 95 views
2

我已經爲840個網址颳了一個網站... 當我爲更多的隱私信息重新命名網址時,我的python scraper沒有收錄與手動點擊鏈接相同的數據。網站跟蹤鏈接與手動瀏覽不一樣

例如,當我訪問這個網站,https://salesweb.civilview.com/Sales/SalesSearch

如果我點擊列表中的第一個「細節」,把它帶到一個頁面,瞭解更多信息。

所給出的信息是相對鏈接顯示「/銷售/ SaleDetails?屬性ID = 254119896」

我颳了「細節」相對鏈接,然後重建鏈接相匹配的絕對地址。 這個地址變成

https://salesweb.civilview.com/Sales/SaleDetails?PropertyId=254119896

但是我這樣做,並嘗試刮的時候,我一共拿到了不同的數據集,並帶我到一個普通的着陸頁。

https://salesweb.civilview.com/

我起初以爲,我需要使用模擬瀏覽器來解決這個問題,但是現在我不知道。

這裏是我的代碼:

import time 
from selenium import webdriver 

baseurl='https://salesweb.civilview.com' 
link='/Sales/SaleDetails?PropertyId=254119946' 
url1=baseurl+link 

driver = webdriver.PhantomJS() 
driver.get(url1) 
html = driver.page_source 
time.sleep(10) 
driver.quit() 

回答

0

我找到了一個解決辦法,如果你第一次與網站進行互動,您可以訪問其他網址。不幸的是,我不知道它爲什麼有效:

driver = webdriver.PhantomJS() 
driver.get("https://salesweb.civilview.com/") 
driver.find_element_by_link_text('Atlantic County, NJ').click() 
driver.get("https://salesweb.civilview.com/Sales/SaleDetails?PropertyId=254119946") 
html = driver.page_source 
print(html)