web-scraping

    1熱度

    1回答

    我正在嘗試使用htmlunit庫訪問java中的網頁。我可以成功地閱讀常規桌面瀏覽器的頁面,但現在我想閱讀相同網頁的移動版本,基本上是手機瀏覽器中顯示的原始HTML,但我不能。 我試着用移動電話規範定義一個新的BrowserVersion類,如下所示。但是,當我閱讀網頁時,讀取的值不是網頁的移動版本(與網頁的桌面版本相同)。 String applicationName = "Chrome";

    1熱度

    1回答

    我刮一個XML站點地圖包含特殊字符,如é,導致 ERROR: Spider error processing <GET [URL with '%C3%A9' instead of 'é']> 我如何獲得Scrapy保持原來的網址不變,即用它的特殊性格? Scrapy == 1.3.3 的Python 3.5.2 == (我需要堅持這些版本) 更新:每https://stackoverflow.

    1熱度

    2回答

    我使用findAll函數在beautifulsoup中刮取文本的網頁並將結果返回到列表中。出於某種原因,當td容器中還存在鏈接時,它不會返回條目。例如: <html <tr> <td> Taken at. string without link, this is found </td> </tr> <tr> <td> Taken at. string followe

    0熱度

    1回答

    我試圖從WSJ期貨中提取表格,但我希望能夠更改網址中的日期。我的希望是使用下面的代碼,但使網站的單元格參考。任何想法如何使這項工作或一個不同的代碼,將使我與網站的單元格參考相同的結果? Sub GetWebTable() With ActiveSheet.QueryTables.Add(Connection:="http://www.wsj.com/mdc/public/page/2_3

    0熱度

    1回答

    屬性我真的不知道如何從data-image-large得到公正的src圖像我得到這個: [<img alt="Adidas Originals NMD C2" class="img-responsive" data-image-large="https://hypebeast.imgix.net/http%3A%2F%2Fs3.store.hypebeast.com%2Fmedia%2Fimage

    0熱度

    1回答

    我發現了一堆關於如何使用R從twitter中剔除推文的指南,但是我也有興趣獲取推文的日期和時間。有沒有辦法讓我做到這一點?有沒有人可以指導我的指導? https://www.r-bloggers.com/how-to-use-r-to-scrape-tweets-super-tuesday-2016/ 這是我用的導向。謝謝你的幫助。

    0熱度

    2回答

    我需要刮這個HTML頁面... http://www1.usl3.toscana.it/default.asp?page=ps&ospedale=3 ....使用PHP和XPath得到像值下字符串「CODICE BIANCO」 (注意:如果您嘗試瀏覽它,則可以在該頁面看到不同的值......無所謂......,它們正在改變...) 我使用這個PHP代碼示例打印的價值... <?php i

    0熱度

    2回答

    我對網絡抓取非常陌生,並且在從nba.com抓取一些NBA球員數據時遇到了一些麻煩。我首先試圖用bs4來刮頁面,但碰到一個問題,經過一些研究後,我認爲這是由於我閱讀的文章中的「XHR」。我能夠找到json格式數據的網址,但我的python程序似乎陷入了困境,並且從未加載數據。再次,我在網絡抓取方面很新穎,但是我想我會看看我是否在這裏偏離軌道......有什麼建議嗎?謝謝! (下面的代碼) impo

    0熱度

    2回答

    我正在學習使用python進行網頁抓取,但無法獲得所需的結果。下面是我的代碼和輸出 代碼 import bs4,requests url = "https://twitter.com/24x7chess" r = requests.get(url) soup = bs4.BeautifulSoup(r.text,"html.parser") soup.find_all("span",{"c

    1熱度

    1回答

    我正在嘗試爲nba數據創建一個web刮板。當我運行下面的代碼: import requests response = requests.get('https://stats.nba.com/stats/leaguedashplayerstats?College=&Conference=&Country=&DateFrom=10%2F20%2F2017&DateTo=10%2F20%2F2017