web-scraping

    0熱度

    1回答

    我是Python新手,一般編碼。我正試圖通過Scrapy構建一個刮板。我正試圖在Mac OS 10.12.6上做到這一點。我儘可能按照說明操作(https://doc.scrapy.org/en/latest/intro/tutorial.html),但是當我撥打 scrapy start項目教程我在下面得到以下輸出。解決這個問題並理解未來錯誤消息的最好方法是什麼? 謝謝! File "/usr/

    0熱度

    2回答

    尋找使用捲曲抓取一束數據的問題是的是,數據需要的範圍PARAM,即?範圍= 1-1,範圍= 2-2,範圍= 3-3等 如何讓curl同時增加兩個值,這樣我得到如上所述的輸出? curl "http://test.abc.test&range=[0-100]-[0-100]" 將做結束,然後通過開始循環,這是不是我想要的。

    -1熱度

    1回答

    我正在嘗試使用Selenium/Python來讀取基本的HTML表格。每一行被格式化這樣的: <tr> <td bgcolor="#ffffbb"><font face="Arial"><font size=2><b><a href="https://www.lyngsat.com/tvchannels/id/TV-Polri.html">TV Polri</a></b></td> <td b

    0熱度

    4回答

    我試圖將webelement內容存儲到python列表中。當它工作時,處理約2,000行需要約15分鐘。 # Grab webelements via xpath rowt = driver.find_elements_by_xpath("//tbody[@class='table-body']/tr/th[@class='listing-title']") rowl = driver.fin

    0熱度

    1回答

    我在一個函數中創建了一個小型web爬蟲,upso_final。 如果我print(upso_final()),我得到15個名單,包括標題,地址,電話號碼。不過,我只想打印出標題,所以我使用變量標題爲全局字符串。當我打印它時,我只能得到1個標題,這是最後一個標題。我想獲得全部15個冠軍。 from __future__ import unicode_literals import request

    0熱度

    1回答

    我正在學習如何使用R進行網頁抓取。在這種情況下,我使用包「rvest」和一個名爲follow_link的特定函數。 的想法是讓擁有多個鏈接網頁的信息。我希望我的代碼能夠進入這些鏈接並獲取其中的表格。 這是代碼: library(rvest) s <- html_session("http://fccee.uvigo.es/es/profesorado.html") link <- c("Der

    0熱度

    1回答

    我是網絡爬蟲的新手,想要學習如何使用beautifulsoup將其集成到迷你項目中。我在他的youtube channel上關注美麗的新教程,然後就試圖抓取Reddit。我想在Reddit/r/nba的每個NBA新聞中抓取冠軍和鏈接,但沒有取得任何成功。只有在終端返回的是「處理完成退出碼0」。我有一種感覺,這是與我的選擇?任何指導和幫助將不勝感激。 這是原來的代碼,沒有工作: import req

    0熱度

    1回答

    我試圖在Scrapy蜘蛛中使用urlparse.urljoin來編譯一個url列表。目前,我的蜘蛛沒有返回,但沒有發現任何錯誤。所以我試圖檢查我是否正確地編譯了這些URL。 我的嘗試是使用str.join在閒置測試,如下圖所示: >>> href = ['lphs.asp?id=598&city=london', 'lphs.asp?id=480&city=london', 'lphs.asp

    3熱度

    1回答

    添加屬性,這裏是我的HTML結構湊: <div class='schedule-lists'> <ul> <li>...</li> <ul> <li>...</li> <ul class='showtime-lists'> <li>...</li> <li><a auditype="N"

    -2熱度

    1回答

    當我嘗試當我打電話使用 driver.find_elements_by_class_name('radio') or driver.find_elements_by_class_name('hidden-xs') or driver.find_elements_by_class_name('form-control') 爲什麼我看不到大小數湊這個鏈接 https://hbx.com/brand