2016-06-13 33 views
-3

我想以某種複製/粘貼格式從頁面獲取所有信息,但由於安全限制,我無法使用站點中的urllib或json信息。我想知道是否有方法讓python打開網頁並複製實際頁面本身,而不是從API中檢索html代碼或JSON?從沒有urllib或json的站點獲取信息

+1

你是什麼意思_copy實際頁面本身_?讓瀏覽器渲染頁面? – Finwood

+1

我很好奇你對'實際頁面'的定義嗎?該頁面是html和javascript。 –

+0

[任何人都知道一個好的基於Python的網絡爬蟲,我可以使用?]可能的重複(http://stackoverflow.com/questions/419235/anyone-know-of-a-good-python-based-web-crawler - 這是我可以使用) – kloddant

回答

1

您可以通過selenium加載一個真正的瀏覽器的網頁並獲取.page_source

from selenium import webdriver 

driver = webdriver.Firefox() 
driver.get("url") 

print(driver.page_source) 
1

取決於...你只想使用標準的Python?如果是,則:

  • ,如果你使用的是Windows,你可以下載頁面在Linux或Mac bitsadmin

  • ,那麼你可以使用curl

    ​​

連同subprocess.check_output()

另有一個包如selenium作爲另一個答案提到。