web-scraping

    -2熱度

    1回答

    感謝您提前給予您的幫助!我是這個東西的初學者,所以任何幫助表示讚賞。如果有一個有用的指導,使用美麗的方式來做到這一點,我會採取一個鏈接。無法使其工作。 我想刮this page從HREF鏈接wineRatings_initials和ul.wineRatings_list,span.pipSecContent_copy,並經/緯度wineRatings_rating和averageRating_av

    1熱度

    2回答

    我已經在python中編寫腳本並結合selenium來解析網頁中的名稱。該網站的數據不支持JavaScript。但是,下一頁鏈接在JavaScript內。由於該網頁的下一頁鏈接對於requests庫而言沒有用處,因此我使用硒來解析來自該網站的數據,並遍歷了25個頁面。我在這裏面臨的唯一問題是,儘管我的刮板能夠通過點擊25頁到達最後一頁,但它僅從第一頁獲取數據。而且,即使點擊了最後一頁,刮刀仍然繼續

    0熱度

    1回答

    我編寫了導航到特定網站(http://www.boxofficemojo.com/)的代碼,然後將電影標題從電子表格複製/粘貼到搜索欄中以搜索該標題並打開其個人電影頁面(第一種情況是「Rogue One:星球大戰的故事」),這將最終用於從我的電子表格中爲200部電影抓取數據 我的問題如下:當我當我手動運行它(f5)時,它無法可靠地工作 - 它可能會工作一次,但總是出軌,並最終導航到錯誤的網頁。更奇

    0熱度

    1回答

    假設我想從特定網站中刪除「長」帖子。爲了做到這一點,我創建了以下類: import requests class PostScraper: THRESHOLD = 100 def __init__(self, thread_id): self.url = 'foo.bar/thread-%s?pg=last' % thread_id def ge

    0熱度

    2回答

    當我試圖使用網址來抓取網頁時,我發現一些元素只存在於某些頁面中,而其他元素沒有。讓我們的代碼,例如 代碼: for urls in article_url_set: re=requests.get(urls) soup=BeautifulSoup(re.text.encode('utf-8'), "html.parser") title_tag = soup.sele

    0熱度

    2回答

    關於python網頁抓取的關於無關的知識。 我需要從this頁面得到一個表: http://performance.morningstar.com/funds/etf/total-returns.action?t=IWF 我感興趣的表是這樣的: (忽略表上方的圖表) 這是我現在有: from selenium import webdriver from bs4 import Beautifu

    0熱度

    1回答

    我正在運行ELK堆棧進行日誌分析,其中kibana被用作數據可視化。現在我想從kibana網頁中提取一些字段。 我想提取CU和計數字段,你可以看到我附上了網頁截圖和相應的html源代碼。 現在我試圖使用python和「美麗的肥皂」庫來廢棄相同的網頁,但是我看到的任何代碼都是不同的。 請help.soso, 你可以建議我一些其他的方法,我可以提取所需的領域?

    0熱度

    1回答

    我想用Python 3.5來抓取像this這樣的頁面。我使用BeautifulSoup來刮掉它的內容。我在刮取大小的數量時遇到問題。在此特定頁面中,尺寸數量爲9(FR 80 A,FR 80 B,FR 80 C等)。我想這個信息是json格式。我試圖使用json包,但我找不到'開始'和'結束'。 我的代碼如下所示: import requests import json page = requ

    0熱度

    1回答

    我試圖從表格中抓取數據,但是表格數據似乎有相同的xpath。這裏是表的一個例子 - http://www.hpft.nhs.uk/services/find-our-services/hertfordshire/cheshunt 而當我使用response.xpath('//td/text()').extract()它返回整個表。 我想也許我可以使用絕對路徑,例如response.xpath('/

    1熱度

    1回答

    我想要的只是颳去所有的產品。爲什麼我也不能使用containers.div?當我的教程只有<div></div>時,我很困惑<div><\div><div>。 from urllib.request import urlopen as uReq from bs4 import BeautifulSoup as soup my_url = 'https://hbx.com/categories