web-scraping

    1熱度

    3回答

    我已經在python中編寫腳本來從一些html元素中刪除一些文本。腳本現在可以解析它。但是,問題是結果看起來很奇怪,它們之間有一堆空格。我該如何解決它?任何幫助將不勝感激。 這是HTML元素的文本應該被刮掉: html=""" <div class="postal-address"> <p>11525 23 AVE</p> <p>EDMONTON, AB

    1熱度

    1回答

    這是我第一次在這裏發佈。 我想問問你是否有辦法分析python中的頁面中的活動數據,如Firefox或Chrome(firefox screen here)。 我正在製作一個腳本,它從網站上取消一個JSON格式的文件,但他們不斷更改名稱,唯一的方法是我可以知道文件的名稱來自「網絡」分析器。 我想解析與該頁面相關的JSON文件,但是當我更新頁面時他們正在更改名稱。 感謝所有

    0熱度

    1回答

    當我使用類來抓取任何Web數據時,我完全是python的新手。所以,對於任何嚴重的錯誤,事先道歉。我編寫了一個腳本來使用wikipedia網站上的a標籤解析文本。我試圖從我的級別準確地編寫代碼,但由於某種原因,當我執行代碼時會拋出錯誤。我的代碼和錯誤在下面給出,供您考慮。 腳本: import requests from lxml.html import fromstring class T

    0熱度

    1回答

    我需要能夠以編程方式讀或刮擦該URL的內容: https://www.toysrus.com/product?productId=122872496 我試過設置用戶代理,餅乾,各種。我也試着在Chrome「複製爲捲曲」從開發者工具 - 命令>網絡,這給下面捲曲bash命令: curl 'https://www.toysrus.com/product?productId=122872496' -H

    -1熱度

    1回答

    我在用下面的代碼網頁: from selenium import webdriver from bs4 import BeautifulSoup driver = webdriver.Chrome('C:/.../chromedriver_win32/chromedriver') link = 'http://performance.morningstar.com/funds/etf/to

    2熱度

    2回答

    我已經在python中編寫腳本來從一些html元素中刪除一些文本。我寫的腳本可以解析它。然而,問題在於數據正在被解析,它們之間有巨大的空間。我嘗試了.strip()方法,但對結果沒有任何影響。我該如何解決它? HTML元素: html=""" <div class="organisation-details"> <div class="personnel shaded">

    2熱度

    1回答

    我嘗試做一些網頁搜刮 目的是根據郵政編碼收集所有的補救措施。問題是當我嘗試我的代碼時,我的列表是空的,因爲url根據郵政編碼沒有改變。這就是爲什麼我想在修改過程中更改HTML值的原因。 我不知道如何做到這一點。我嘗試使用Selenium和XPATH但是我無法找到任何東西。 這裏的HTML代碼:(紅色是我需要改變。) 編輯:的確,我們的目標是根據郵政編碼來收集與名稱的分頁和補救的類型,這這就是爲什麼

    -1熱度

    1回答

    我想創建一個網頁版本控制備份/日誌。如果網頁(包括JS和CSS)被修改,它會在驅動器上保存一個靜態副本。 我如何get一個網頁的CSS和JavaScript?只需連接到網頁並閱讀內容並返回即可獲得HTML。但我如何獲得CSS &本頁面的Javascript也是如此? 該系統不能直接訪問網絡服務器,因此我必須通過遠程執行network。 我的想法是我搜索了我爲.css和'.js'搜索到的HTML,並

    2熱度

    2回答

    好吧,決定編輯這個真正的快速,只是在這裏包括我的整個劇本。 這是我第一個使用python的「真實世界」應用程序,或者對於這個問題,任何編程語言。 我已經使用我發現的教程構建了一個基本的網頁抓取工具,並且正在嘗試添加信息並在其基礎上創建一些比實際更有用的工具。 我遇到的問題是,收集的信息到目前爲止一直比較容易獲得,但現在我被困在這裏將代碼的代價拉到我的python腳本中。 我可以從這裏得到價格,但是

    0熱度

    1回答

    嘗試使用網絡鏈接下載多個zip文件。通過這種方法,下載文件,因爲得到的文件名覆蓋相同的多個年 - library(rvest) url <- "https://download.open.fda.gov/" page <- read_html(url) zips <- grep("\\/drug-event",html_nodes(page,"key"), value=TRUE) zi