2016-11-18 133 views
0

我想從使用python beautifulsoup庫的網站html中提取幾個元素。問題是來自響應的HTML與我在瀏覽器上看到的不同。這裏是代碼:通過請求請求的HTML內容與瀏覽器不同

import requests 
from bs4 import BeautifulSoup 
import pandas as pd 

url = 'https://www.nutritionix.com/brands/restaurant' 

resp = requests.get(url,verify=True) 
soup = BeautifulSoup(resp.content) 

我已經嘗試使用urllib庫,並使用瀏覽器代理參數,但它沒有奏效。

有關如何解決此問題的任何建議?

回答

0

該頁面是由javascript生成的。

嘗試使用螢火蟲或谷歌開發工具。 enter image description here

你想要的數據實際上是從 https://d1gvlspmcma3iu.cloudfront.net/brands-restaurant.json.gz

+0

感謝您的幫助!是否有一種方法可以從上面生成的頁面中獲取數據?我想進入每家餐廳,並獲得菜單項目列表。 – Gunners4Ever

+0

是的。餐館網址的模式就像 – uonlyYOLOonce

+0

就像https://www.nutritionix.com/brand/NAME-OF-RESUTRANT/products/THIS-IS-THE-{ID}-YOU-GOT-FROM-THE-AJAX -CALL(aka ..從此網址https://d1gvlspmcma3iu.cloudfront.net/brands-restaurant.json.gz) – uonlyYOLOonce