rvest

    1熱度

    1回答

    我試圖刮掉國家氣象局的網頁,只拿出文本的某​​一部分,並將它變成R中的一個字符對象。它最終會成爲一個小段落如NWS頁面所示。 (見下文) 我一直在用rvest軟件包抓取網頁,並嘗試了一些XML包的代碼。 這是我的代碼,其中包含天氣服務網址。 weather_con <- read_html("http://forecast.weather.gov/product.php?site=TWC&issu

    0熱度

    1回答

    我正在抓取IMDb,並且希望僅通過一種流派對電影進行分類,但它們會返回多個。 我該如何讓它只返回我指定的流派? IMBD_Movies <- html_session("http://www.imdb.com/chart/top") movieTitles <- IMBD_Movies %>% html_nodes(".titleColumn a")%>% html_text()%>%he

    0熱度

    3回答

    我想用R從a website中抓取數據。我使用rvest試圖模仿an example scraping the IMDB page for the Lego Movie。該示例主張使用名爲Selector Gadget的工具來幫助輕鬆識別與您要提取的數據相關聯的html_node。 我在構建具有以下架構/列的數據幀最終感興趣: rank,blog_name,facebook_fans,twitte

    3熱度

    1回答

    我試圖從包含英語和當地語言(非英語)內容的網站下載數據。我能夠獲得英文數據,但對於使用本地語言的內容,我得到了如下所示的內容。我的問題是如何顯示兩者? X1 X2 X3 NA 1 <U+0926><U+094B><U+0932><U+0916><U+093E> <U+0915><U+093E><U+0932><U+093F><U+0928><U+094D><U+091A><U+094B><U

    1熱度

    1回答

    我試圖從以下頁面獲得: https://ideas.repec.org/a/aea/aecrev/v92y2002i3p411-433.html 參考列表。 爲了讓我嘗試抓住div「references-body」下的所有「li」元素。 正如您所見,有些情況下列表中包含舊版本或其他版本的引用。我不想那些。 我正在使用下面的代碼 - 但它似乎沒有工作 任何幫助嗎? //div[@id="refere

    0熱度

    2回答

    我有一個html數據集,如下所示,我想解析並轉換成可以使用的表格格式。 <!DOCTYPE html> <html> <head> <title>Page Title</title> </head> <body> <div class="brewery" id="brewery"> <ul class="vcard simple"> <li

    0熱度

    1回答

    我想解析一個html,裏面有幾個li元素。這只是我用兩個div保存的示例html。我有將近7000個div來解析。並非所有的div都具有其中的所有li元素。例如, <li class="brewery_type">可能不適用於所有div。由於這個代碼將不能夠將所有的值填充到tibble中。在那種情況下,我仍然可以通過這個解析並用NA來替換該div中缺少的li元素。 library(rvest)

    0熱度

    2回答

    我嘗試網頁抓取這個頁面http://www.funda.nl/en/koop/leiden/獲得最大頁面就可以顯示這是29.我跟一些在線教程和所在的位置29是在HTML代碼,寫這個R代碼裏面 url<- read_html("http://www.funda.nl/en/koop/leiden/") url %>% html_nodes("#pagination-number.paginati

    0熱度

    1回答

    我試圖從basketballreference.com拉一列數據,這樣一來是特別: http://www.basketball-reference.com/teams/ATL/2016.html 使用selectorGadget我可以突出顯示我想要的頁面部分,然後它給了我把html intode函數放入int的參數。然而,我試圖拉取玩家的名字,但是當我複製並粘貼selectorGadget的輸出時

    0熱度

    1回答

    希望得到社區關於如何最好地處理惡化情況的建議。 我有一個R package,它刮擦國家颶風中心檔案並返回整齊的風暴數據。該網站通常不會迴應。 一個例子是this Appveyor failure然後是subsequent pass(同一分支,相同的提交)。 眼下卻始終無法在連續四項測試: Build 1.0.141 Build 1.0.142 Build 1.0.143 Build 1.0.144