web-scraping

1熱度

3回答

我已經在python中編寫腳本來從一些html元素中刪除一些文本。腳本現在可以解析它。但是，問題是結果看起來很奇怪，它們之間有一堆空格。我該如何解決它？任何幫助將不勝感激。這是HTML元素的文本應該被刮掉： html=""" <div class="postal-address"> <p>11525 23 AVE</p> <p>EDMONTON, AB

1熱度

1回答

使用python進行Web活動分析

這是我第一次在這裏發佈。我想問問你是否有辦法分析python中的頁面中的活動數據，如Firefox或Chrome（firefox screen here）。我正在製作一個腳本，它從網站上取消一個JSON格式的文件，但他們不斷更改名稱，唯一的方法是我可以知道文件的名稱來自「網絡」分析器。我想解析與該頁面相關的JSON文件，但是當我更新頁面時他們正在更改名稱。感謝所有

0熱度

1回答

執行我的類爬蟲時遇到問題

當我使用類來抓取任何Web數據時，我完全是python的新手。所以，對於任何嚴重的錯誤，事先道歉。我編寫了一個腳本來使用wikipedia網站上的a標籤解析文本。我試圖從我的級別準確地編寫代碼，但由於某種原因，當我執行代碼時會拋出錯誤。我的代碼和錯誤在下面給出，供您考慮。腳本： import requests from lxml.html import fromstring class T

0熱度

1回答

如何讓cURL繞過這個僵硬的殭屍程序？

我需要能夠以編程方式讀或刮擦該URL的內容： https://www.toysrus.com/product?productId=122872496 我試過設置用戶代理，餅乾，各種。我也試着在Chrome「複製爲捲曲」從開發者工具 - 命令>網絡，這給下面捲曲bash命令： curl 'https://www.toysrus.com/product?productId=122872496' -H

-1熱度

1回答

如何點擊在線選項卡上使用Python硒

我在用下面的代碼網頁： from selenium import webdriver from bs4 import BeautifulSoup driver = webdriver.Chrome('C:/.../chromedriver_win32/chromedriver') link = 'http://performance.morningstar.com/funds/etf/to

2熱度

2回答

無法刪除結果之間的巨大空間

我已經在python中編寫腳本來從一些html元素中刪除一些文本。我寫的腳本可以解析它。然而，問題在於數據正在被解析，它們之間有巨大的空間。我嘗試了.strip()方法，但對結果沒有任何影響。我該如何解決它？ HTML元素： html=""" <div class="organisation-details"> <div class="personnel shaded">

2熱度

1回答

在網頁搜索期間修改HTML內容

我嘗試做一些網頁搜刮目的是根據郵政編碼收集所有的補救措施。問題是當我嘗試我的代碼時，我的列表是空的，因爲url根據郵政編碼沒有改變。這就是爲什麼我想在修改過程中更改HTML值的原因。我不知道如何做到這一點。我嘗試使用Selenium和XPATH但是我無法找到任何東西。這裏的HTML代碼：（紅色是我需要改變。）編輯：的確，我們的目標是根據郵政編碼來收集與名稱的分頁和補救的類型，這這就是爲什麼

-1熱度

1回答

刮整個網頁+ CSS + javascript

我想創建一個網頁版本控制備份/日誌。如果網頁（包括JS和CSS）被修改，它會在驅動器上保存一個靜態副本。我如何get一個網頁的CSS和JavaScript？只需連接到網頁並閱讀內容並返回即可獲得HTML。但我如何獲得CSS &本頁面的Javascript也是如此？該系統不能直接訪問網絡服務器，因此我必須通過遠程執行network。我的想法是我搜索了我爲.css和'.js'搜索到的HTML，並

2熱度

2回答

如何從html中將特定位的信息提取到python webscraper？

好吧，決定編輯這個真正的快速，只是在這裏包括我的整個劇本。這是我第一個使用python的「真實世界」應用程序，或者對於這個問題，任何編程語言。我已經使用我發現的教程構建了一個基本的網頁抓取工具，並且正在嘗試添加信息並在其基礎上創建一些比實際更有用的工具。我遇到的問題是，收集的信息到目前爲止一直比較容易獲得，但現在我被困在這裏將代碼的代價拉到我的python腳本中。我可以從這裏得到價格，但是

0熱度

1回答

R - 網頁報廢和下載多個zip文件並保存文件不會被覆蓋

嘗試使用網絡鏈接下載多個zip文件。通過這種方法，下載文件，因爲得到的文件名覆蓋相同的多個年 - library(rvest) url <- "https://download.open.fda.gov/" page <- read_html(url) zips <- grep("\\/drug-event",html_nodes(page,"key"), value=TRUE) zi