beautifulsoup

    -1熱度

    1回答

    <TABLE cellSpacing=0 cellPadding=0 width=700 border=0 617px; HEIGHT: 22px 23px 536px;> ... </TABLE> 我想選擇的所有元素就像以上:所述標籤是TABLE,並且有幾個屬性(cellSpacing=0,cellPadding=0,width=700,border=0)。 我嘗試以下Pytho

    -2熱度

    1回答

    編輯:我已根據需要更改了代碼,但是拋出了不同的錯誤消息。 我是一個美麗的湯和編碼到一定程度的相對菜單,只是尋找一個快速指針,看看我要去哪裏錯了。基本上我會刮我的網站,並返回價格和產品名稱的清單。 import csv from datetime import datetime quote_page = 'http://www.golfspikesdirect.com/all-golf-spi

    0熱度

    2回答

    我已安裝bs4。你如何從文本文件中刪除HTML標籤?簡而言之,我有一個腳本,將ESRI元數據項目寫入該元數據HTML頁面的文本文件中,對於這些項目中的一些項目,HTML格式代碼也是由於某種原因編寫的。我如何使用BeautifulSoup刪除這段代碼?它看起來馬虎。 此附件的說明項具有HTML:Textfile

    0熱度

    1回答

    尋求幫助,以循環訪問網站上的所有選項卡以捕獲所有相關信息。 在以下站點中,有幾個標籤分別標記爲5x5,5x10x5,10x10等。我不確定如何構造它,以便它會通過選項卡並在我的腳本中編寫循環。感謝您的幫助。 下面是python腳本; from urllib.request import urlopen as uReq from bs4 import BeautifulSoup as soup

    0熱度

    2回答

    我在網站上做過網頁抓取。它只在頁面中取得前20個元素。如果我們向下滾動,其餘元素將被加載。如何刮這些元素呢?有沒有什麼不同的方法來做到這一點? import requests from bs4 import BeautifulSoup r=requests.get("https://www.century21.com/real-estate/rock-spring-ga/LCGAROCKSP

    0熱度

    1回答

    我對Python的webscraping世界很陌生,但我想開發的終極技能是將刮取的數據存儲到數據庫中並定期刷新數據。 我的問題是:如何節省數據請求(時間,帶寬使用),只請求自上次運行腳本以來新增的數據? 例如,我的代碼返回在網站上Autotrader汽車的上市: from bs4 import BeautifulSoup import requests #URL and headers so

    1熱度

    3回答

    長話短說,我試圖用美麗的湯用強烈的標籤取代b標籤。 湯需要一些投入,包括 <b>Words:</b> attributes <b>Other Words:</b> other attributes 我有以下python3代碼: strong_tag = soup.new_tag("strong") if(soup.find('b')): for b_tag in soup.fin

    2熱度

    4回答

    我想從網站上刮取一些數據。這是html格式。我想湊字"No description for 632930413867". HTML代碼: <div class="col-xs-6 col-sm-6 col-md-6 col-lg-6"> <table class="table product_info_table"> <tbody> <tr> <td>G

    1熱度

    1回答

    我想寫一些代碼來刮一個網站的鏈接列表,然後我會做一些事情之後。我發現一些代碼here,我試圖去適應,以便打印列表而不是將它添加到一個系列中。我的代碼如下: import pandas as pd from bs4 import BeautifulSoup from urllib.parse import urljoin user_agent = {'User-agent': 'Mozilla

    1熱度

    1回答

    我試圖抓取10-K文件的一部分。我有一個問題來確定'項目7(a)'的位置。從beautifulsoup返回的文本,儘管它有單詞。但是下面的代碼正在處理我製作的包含'item 7(a)'的字符串。 import urllib2 import re import bs4 as bs url=https://www.sec.gov/Archives/edgar/data/1580608/00015