4
我正在試圖抓取維基百科中的表格,並陷入僵局。我以國際足聯2014年世界盃的小隊爲例。在這種情況下,我想從頁面「2014年FIFA世界盃小組」的內容表中提取參賽國名單,並將它們存儲爲矢量。以下是我得到了多少:將HTML中的表格轉換爲數據框
library(tidyverse)
library(rvest)
library(XML)
library(RCurl)
(Countries <- read_html("https://en.wikipedia.org/wiki/2014_FIFA_World_Cup_squads") %>%
html_node(xpath = '//*[@id="toc"]/ul') %>%
htmlTreeParse() %>%
xmlRoot())
這吐出了一堆HTML代碼,我不會複製/粘貼在這裏。我特別想要提取所有標記爲<span class="toctext">
的行,如「A組」,「巴西」,「喀麥隆」等,並將它們保存爲向量。什麼功能會使這發生?