rvest

1熱度

1回答

我試圖刮掉國家氣象局的網頁，只拿出文本的某一部分，並將它變成R中的一個字符對象。它最終會成爲一個小段落如NWS頁面所示。（見下文）我一直在用rvest軟件包抓取網頁，並嘗試了一些XML包的代碼。這是我的代碼，其中包含天氣服務網址。 weather_con <- read_html("http://forecast.weather.gov/product.php?site=TWC&issu

0熱度

1回答

如何返回與變量中給定字符串匹配的字符串

我正在抓取IMDb，並且希望僅通過一種流派對電影進行分類，但它們會返回多個。我該如何讓它只返回我指定的流派？ IMBD_Movies <- html_session("http://www.imdb.com/chart/top") movieTitles <- IMBD_Movies %>% html_nodes(".titleColumn a")%>% html_text()%>%he

0熱度

3回答

用R和選擇器小工具進行網絡抓取

我想用R從a website中抓取數據。我使用rvest試圖模仿an example scraping the IMDB page for the Lego Movie。該示例主張使用名爲Selector Gadget的工具來幫助輕鬆識別與您要提取的數據相關聯的html_node。我在構建具有以下架構/列的數據幀最終感興趣： rank，blog_name，facebook_fans，twitte

3熱度

1回答

以當地語言顯示內容：R

我試圖從包含英語和當地語言（非英語）內容的網站下載數據。我能夠獲得英文數據，但對於使用本地語言的內容，我得到了如下所示的內容。我的問題是如何顯示兩者？ X1 X2 X3 NA 1 <U+0926><U+094B><U+0932><U+0916><U+093E> <U+0915><U+093E><U+0932><U+093F><U+0928><U+094D><U+091A><U+094B><U

1熱度

1回答

Xpath - 嘗試獲取不在特定div下的所有li對象。

我試圖從以下頁面獲得： https://ideas.repec.org/a/aea/aecrev/v92y2002i3p411-433.html 參考列表。爲了讓我嘗試抓住div「references-body」下的所有「li」元素。正如您所見，有些情況下列表中包含舊版本或其他版本的引用。我不想那些。我正在使用下面的代碼 - 但它似乎沒有工作任何幫助嗎？ //div[@id="refere

0熱度

2回答

使用R解析HTML數據

我有一個html數據集，如下所示，我想解析並轉換成可以使用的表格格式。 <!DOCTYPE html> <html> <head> <title>Page Title</title> </head> <body> <div class="brewery" id="brewery"> <ul class="vcard simple"> <li

0熱度

1回答

在R中使用rvest替換丟失的html_nodes

我想解析一個html，裏面有幾個li元素。這只是我用兩個div保存的示例html。我有將近7000個div來解析。並非所有的div都具有其中的所有li元素。例如， <li class="brewery_type">可能不適用於所有div。由於這個代碼將不能夠將所有的值填充到tibble中。在那種情況下，我仍然可以通過這個解析並用NA來替換該div中缺少的li元素。 library(rvest)

0熱度

2回答

如何使用rvest正確地抓取網頁？

我嘗試網頁抓取這個頁面http://www.funda.nl/en/koop/leiden/獲得最大頁面就可以顯示這是29.我跟一些在線教程和所在的位置29是在HTML代碼，寫這個R代碼裏面 url<- read_html("http://www.funda.nl/en/koop/leiden/") url %>% html_nodes("#pagination-number.paginati

0熱度

1回答

使用SelectorGadget和RVest拉動底層的HTML，而不是文字我想捕捉

我試圖從basketballreference.com拉一列數據，這樣一來是特別： http://www.basketball-reference.com/teams/ATL/2016.html 使用selectorGadget我可以突出顯示我想要的頁面部分，然後它給了我把html intode函數放入int的參數。然而，我試圖拉取玩家的名字，但是當我複製並粘貼selectorGadget的輸出時

0熱度

1回答

處理波動的網站時出現不一致的測試結果

希望得到社區關於如何最好地處理惡化情況的建議。我有一個R package，它刮擦國家颶風中心檔案並返回整齊的風暴數據。該網站通常不會迴應。一個例子是this Appveyor failure然後是subsequent pass（同一分支，相同的提交）。眼下卻始終無法在連續四項測試： Build 1.0.141 Build 1.0.142 Build 1.0.143 Build 1.0.144