web-scraping

0熱度

1回答

我是Python新手，一般編碼。我正試圖通過Scrapy構建一個刮板。我正試圖在Mac OS 10.12.6上做到這一點。我儘可能按照說明操作（https://doc.scrapy.org/en/latest/intro/tutorial.html），但是當我撥打 scrapy start項目教程我在下面得到以下輸出。解決這個問題並理解未來錯誤消息的最好方法是什麼？謝謝！ File "/usr/

0熱度

2回答

捲曲支架通配符

尋找使用捲曲抓取一束數據的問題是的是，數據需要的範圍PARAM，即？範圍= 1-1，範圍= 2-2，範圍= 3-3等如何讓curl同時增加兩個值，這樣我得到如上所述的輸出？ curl "http://test.abc.test&range=[0-100]-[0-100]" 將做結束，然後通過開始循環，這是不是我想要的。

-1熱度

1回答

解析Selenium中的表格

我正在嘗試使用Selenium/Python來讀取基本的HTML表格。每一行被格式化這樣的： <tr> <td bgcolor="#ffffbb"><font face="Arial"><font size=2><b><a href="https://www.lyngsat.com/tvchannels/id/TV-Polri.html">TV Polri</a></b></td> <td b

0熱度

4回答

Selenium WebDriver將WebElement數據添加到列表的速度很慢

我試圖將webelement內容存儲到python列表中。當它工作時，處理約2,000行需要約15分鐘。 # Grab webelements via xpath rowt = driver.find_elements_by_xpath("//tbody[@class='table-body']/tr/th[@class='listing-title']") rowl = driver.fin

0熱度

1回答

python print（）不輸出我期望的內容

我在一個函數中創建了一個小型web爬蟲，upso_final。如果我print(upso_final())，我得到15個名單，包括標題，地址，電話號碼。不過，我只想打印出標題，所以我使用變量標題爲全局字符串。當我打印它時，我只能得到1個標題，這是最後一個標題。我想獲得全部15個冠軍。 from __future__ import unicode_literals import request

0熱度

1回答

如何通過R中的follow_link抓取這個鏈接？

我正在學習如何使用R進行網頁抓取。在這種情況下，我使用包「rvest」和一個名爲follow_link的特定函數。的想法是讓擁有多個鏈接網頁的信息。我希望我的代碼能夠進入這些鏈接並獲取其中的表格。這是代碼： library(rvest) s <- html_session("http://fccee.uvigo.es/es/profesorado.html") link <- c("Der

0熱度

1回答

無法抓取Reddit的NBA頁面

我是網絡爬蟲的新手，想要學習如何使用beautifulsoup將其集成到迷你項目中。我在他的youtube channel上關注美麗的新教程，然後就試圖抓取Reddit。我想在Reddit/r/nba的每個NBA新聞中抓取冠軍和鏈接，但沒有取得任何成功。只有在終端返回的是「處理完成退出碼0」。我有一種感覺，這是與我的選擇？任何指導和幫助將不勝感激。這是原來的代碼，沒有工作： import req

0熱度

1回答

Scrapy - urlparse.urljoin的行爲方式與str.join相同嗎？

我試圖在Scrapy蜘蛛中使用urlparse.urljoin來編譯一個url列表。目前，我的蜘蛛沒有返回，但沒有發現任何錯誤。所以我試圖檢查我是否正確地編譯了這些URL。我的嘗試是使用str.join在閒置測試，如下圖所示： >>> href = ['lphs.asp?id=598&city=london', 'lphs.asp?id=480&city=london', 'lphs.asp

3熱度

1回答

BeautifulSoup - 對結果集

添加屬性，這裏是我的HTML結構湊： <div class='schedule-lists'> <ul> <li>...</li> <ul> <li>...</li> <ul class='showtime-lists'> <li>...</li> <li><a auditype="N"

-2熱度

1回答

當我調用driver.find_elements_by_class_name（'radio'）時，爲什麼size不想顯示？

當我嘗試當我打電話使用 driver.find_elements_by_class_name('radio') or driver.find_elements_by_class_name('hidden-xs') or driver.find_elements_by_class_name('form-control') 爲什麼我看不到大小數湊這個鏈接 https://hbx.com/brand