2016-04-23 57 views
-1

我正在嘗試將一個網頁的內容加載到一個數組中,這是我之前在很多場合做過的。然而,這次網站的內容是動態的,當我加載時,我只需要獲取通用網頁,而不需要我需要的特定內容。如何分析Python中的動態網頁內容?

用於提取頁面和存儲是如下的基本過程:

from lxml import html 
import requests 
import webbrowser 
import time 
import pickle 

page = requests.get('http://www.website.com') 

tree = html.fromstring(page.content) 

所以,我將如何去加載了,比方說,一個拍賣網站,包括動態內容,如拍賣清單?

回答

1

動態內容通常使用JavaScript和AJAX請求(或websockets)生成。有兩種解決方案:

  1. 找出頁面使用的api的位置和用法,並從python端調用它。這將要求您對頁面的JavaScript進行反向工程。

  2. 使用網頁瀏覽器框架在後臺渲染網頁並查詢內容。這很可能會更難以設置。

這兩種解決方案都需要很好的工作,畢竟,你應該真的考慮這是否值得。

+0

在追求知識的過程中,總是值得努力。 –