web-scraping

-2熱度

1回答

感謝您提前給予您的幫助！我是這個東西的初學者，所以任何幫助表示讚賞。如果有一個有用的指導，使用美麗的方式來做到這一點，我會採取一個鏈接。無法使其工作。我想刮this page從HREF鏈接wineRatings_initials和ul.wineRatings_list，span.pipSecContent_copy，並經/緯度wineRatings_rating和averageRating_av

1熱度

2回答

刮板無法從下一頁獲取名稱

我已經在python中編寫腳本並結合selenium來解析網頁中的名稱。該網站的數據不支持JavaScript。但是，下一頁鏈接在JavaScript內。由於該網頁的下一頁鏈接對於requests庫而言沒有用處，因此我使用硒來解析來自該網站的數據，並遍歷了25個頁面。我在這裏面臨的唯一問題是，儘管我的刮板能夠通過點擊25頁到達最後一頁，但它僅從第一頁獲取數據。而且，即使點擊了最後一頁，刮刀仍然繼續

0熱度

1回答

在VBA中導航HTML - 不可靠的代碼問題

我編寫了導航到特定網站（http://www.boxofficemojo.com/）的代碼，然後將電影標題從電子表格複製/粘貼到搜索欄中以搜索該標題並打開其個人電影頁面（第一種情況是「Rogue One：星球大戰的故事」），這將最終用於從我的電子表格中爲200部電影抓取數據我的問題如下：當我當我手動運行它（f5）時，它無法可靠地工作 - 它可能會工作一次，但總是出軌，並最終導航到錯誤的網頁。更奇

0熱度

1回答

如何執行獲取請求的單元測試類

假設我想從特定網站中刪除「長」帖子。爲了做到這一點，我創建了以下類： import requests class PostScraper: THRESHOLD = 100 def __init__(self, thread_id): self.url = 'foo.bar/thread-%s?pg=last' % thread_id def ge

0熱度

2回答

Python：並非每個網頁都有一定的元素

當我試圖使用網址來抓取網頁時，我發現一些元素只存在於某些頁面中，而其他元素沒有。讓我們的代碼，例如代碼： for urls in article_url_set: re=requests.get(urls) soup=BeautifulSoup(re.text.encode('utf-8'), "html.parser") title_tag = soup.sele

0熱度

2回答

使用Python從網頁獲取表格

關於python網頁抓取的關於無關的知識。我需要從this頁面得到一個表： http://performance.morningstar.com/funds/etf/total-returns.action?t=IWF 我感興趣的表是這樣的：（忽略表上方的圖表）這是我現在有： from selenium import webdriver from bs4 import Beautifu

0熱度

1回答

我的Kibana服務器的Web抓取

我正在運行ELK堆棧進行日誌分析，其中kibana被用作數據可視化。現在我想從kibana網頁中提取一些字段。我想提取CU和計數字段，你可以看到我附上了網頁截圖和相應的html源代碼。現在我試圖使用python和「美麗的肥皂」庫來廢棄相同的網頁，但是我看到的任何代碼都是不同的。請help.soso，你可以建議我一些其他的方法，我可以提取所需的領域？

0熱度

1回答

以json格式抓取內容 - Python

我想用Python 3.5來抓取像this這樣的頁面。我使用BeautifulSoup來刮掉它的內容。我在刮取大小的數量時遇到問題。在此特定頁面中，尺寸數量爲9（FR 80 A，FR 80 B，FR 80 C等）。我想這個信息是json格式。我試圖使用json包，但我找不到'開始'和'結束'。我的代碼如下所示： import requests import json page = requ

0熱度

1回答

Scrapy - 如何分割這張表中的數據？

我試圖從表格中抓取數據，但是表格數據似乎有相同的xpath。這裏是表的一個例子 - http://www.hpft.nhs.uk/services/find-our-services/hertfordshire/cheshunt 而當我使用response.xpath('//td/text()').extract()它返回整個表。我想也許我可以使用絕對路徑，例如response.xpath('/

1熱度

1回答

爲什麼我不能調用container.findAll（「h3」，{「class」：「name」}）？

我想要的只是颳去所有的產品。爲什麼我也不能使用containers.div？當我的教程只有<div></div>時，我很困惑<div><\div><div>。 from urllib.request import urlopen as uReq from bs4 import BeautifulSoup as soup my_url = 'https://hbx.com/categories