網站跟蹤鏈接與手動瀏覽不一樣

我已經爲840個網址颳了一個網站... 當我爲更多的隱私信息重新命名網址時，我的python scraper沒有收錄與手動點擊鏈接相同的數據。網站跟蹤鏈接與手動瀏覽不一樣

例如，當我訪問這個網站，https://salesweb.civilview.com/Sales/SalesSearch

如果我點擊列表中的第一個「細節」，把它帶到一個頁面，瞭解更多信息。

所給出的信息是相對鏈接顯示「/銷售/ SaleDetails？屬性ID = 254119896」

我颳了「細節」相對鏈接，然後重建鏈接相匹配的絕對地址。這個地址變成

https://salesweb.civilview.com/Sales/SaleDetails?PropertyId=254119896

但是我這樣做，並嘗試刮的時候，我一共拿到了不同的數據集，並帶我到一個普通的着陸頁。

https://salesweb.civilview.com/

我起初以爲，我需要使用模擬瀏覽器來解決這個問題，但是現在我不知道。

這裏是我的代碼：

import time 
from selenium import webdriver 

baseurl='https://salesweb.civilview.com' 
link='/Sales/SaleDetails?PropertyId=254119946' 
url1=baseurl+link 

driver = webdriver.PhantomJS() 
driver.get(url1) 
html = driver.page_source 
time.sleep(10) 
driver.quit()

來源

2017-07-25 user3757265

我找到了一個解決辦法，如果你第一次與網站進行互動，您可以訪問其他網址。不幸的是，我不知道它爲什麼有效：

driver = webdriver.PhantomJS() 
driver.get("https://salesweb.civilview.com/") 
driver.find_element_by_link_text('Atlantic County, NJ').click() 
driver.get("https://salesweb.civilview.com/Sales/SaleDetails?PropertyId=254119946") 
html = driver.page_source 
print(html)

來源

2017-07-25 02:12:18

網站跟蹤鏈接與手動瀏覽不一樣

回答

相關問題