web-scraping

0熱度

2回答

我正在嘗試編寫一個aspx頁面以獲得樂趣。和代碼目前正在井一面，當我把它推到服務器我得到這個錯誤：「錯誤CS0103：名稱‘DOC’在目前情況下不存在」源錯誤： Line 31: Url = "https://www.********.com/"; Line 32: HtmlWeb web = new HtmlWeb(); Line 33: HtmlDocument doc =

0熱度

1回答

如何使用rvest在R中提取維基百科表中的特定元素？

例如，對於NYC我想從信息框中提取網站（右表）。我使用這個： url = "https://en.wikipedia.org/wiki/New_York_City" page = read_html(url) links = page %>% html_nodes("table tr a") 但是，這是錯誤的。

-1熱度

1回答

Try塊的內部不返回任何東西

我想要的HTML刮，樂趣和我的問題是。此Response.write（）方法從IDE的try catch塊內部起作用。但它不返回服務器上的Response.write（）方法。 try { if (x == 1) { Url = "https://www.**********.com/" + arama; }

0熱度

1回答

Rselenium網頁抓取：作爲函數應用

我一直在試圖解決這一整天，我找不出解決方案。請幫忙！！所以學習網頁刮，我一直在練習本網站： https://www.net-a-porter.com/fr/fr/Shop/Designers/Fendi 目標是刮每一件產品的價格。所以，感謝這個網站和其他互聯網用戶在ressources，我做了這個代碼工作完美： option <- remDr$findElement(using = 'xpa

1熱度

1回答

與硒+ Python的

我使用硒與Python使用this website，並希望通過單擊設計該按鈕可以更改頁面列表中選擇選項。但是，我不知道爲什麼，此按鈕處於禁用狀態，並且只有在您選擇要在頁面上顯示的其他數量的項目時纔會啓用。我設法在名單上編程單擊顯示所有的選項，但沒能選擇一個選項。我試着用下面幾行： driver.find_element_by_xpath("//*[@id='edit-limit']/optio

1熱度

1回答

刮網頁包含錨標記<a href = "#"> using scrapy

I am scraping manulife 我想進入下一個頁面，當我檢查了「下一個」我得到： <span class="pagerlink"> <a href="#" id="next" title="Go to the next page">Next</a> </span> 還有什麼是正確的做法遵循？ # -*- coding: utf-8 -*- import scrapy

1熱度

2回答

只收集第一頁內容的刮板

我已經寫了一個使用python從yiffy種子中刮取電影名稱的刮板。該網頁已經遍歷了大約12頁。如果我使用print聲明來運行我的抓取工具，它會爲我提供所有網頁的所有結果。但是，當我使用return執行相同的操作時，它只會從第一頁開始提供內容，而不會進入下一頁來處理其餘的內容。由於我很難理解return語句的行爲，如果有人指出我要出錯的地方並給我一個解決方法，我會非常高興。提前致謝。這就是我與（

0熱度

1回答

如果元素不存在，則結束作業[處理分頁]

我有一個頁面，其中要循環的元素數量不易知道。因此，我通過Href「a」（364匹配）完成了工作循環，當它找不到Next按鈕時，我希望工作結束。 I have tried: try: element = driver.find_element_by_xpath('//span[text()="Next Page"]') except NoSuchElementException:

0熱度

1回答

作業只刮一個頁面，並且在單擊所有複選框時不起作用

我試圖抓取以下網站的數據，該數據適用於一個page。但是，只要我點擊複選框，該作業就不起作用。早些時候你可以看到，我只檢測了24個元素，並沒有點擊複選框，這是正確的刮。只要我點擊複選框，就會有更多的元素，它不能正常工作，如下所示。它爲什麼這樣做？我相信硒一般應刮掉它是什麼在這種情況下，但是看到它沒有這樣做...... driver = webdriver.Chrome() driver.set

0熱度

1回答

Splash的響應不會將html呈現爲html

請你能幫助我嗎？我被困在試圖理解爲什麼閃沒了渲染HTML響應：首先，成功地與scrapy登錄FormRequest 然後SplashRequest，裝在端點但是，當我打印response.body，該頁面未呈現。額外信息： - 頁面向下滾動時添加更多結果。 - page.com並不是真正的網頁。感謝先進！ import scrapy from scrapy_splash impo