長時間潛伏者,第一篇文章(很溫和)。我試圖從一個複雜的XML文件中製作一個「整齊」的R數據幀。部分成功,但由於我對R不熟悉,我無法想出一步。我認爲這並不複雜,但我不能爲了我的生活而克服它。 (曾做過多種谷歌搜索,計算器多看,嘗試了很多東西,在4天內 - > #fail。)XML到R數據幀,重複標識符
XML文件的摘錄部分:
library(XML) mss <- xmlParse("BITECA.toy.XML") xxx <- xmlToDataFrame(nodes = getNodeSet(mss, "//*/MsEd/MsEdID | //*/GeoMilestoneInfo/Dates"), collectNames=FALSE, stringsAsFactors = TRUE)
write.table到一個文本文件,得到:
"Bibliography" "Type" "IDNo" "text" "BITECA" "manid" "1086" NA NA NA NA "1351 - 1400 (Bohigas i Riera)" NA NA NA "1341 - 1360 (Lola Badia)" NA NA NA "1401 - 1450 (Panunzio)" "BITECA" "manid" "2744" NA NA NA NA "1701 - 1800"
我的問題是如何在NAS填充節點標識的重複,以獲得我需要的整潔數據幀。 (需要進一步處理,但我想我知道如何做到這一點。)
"Bibliography" "IDNo" "text" "BITECA" "1086" "1351 - 1400 (Bohigas i Riera)" "BITECA" "1086" "1341 - 1360 (Lola Badia)" "BITECA" "1086" "1401 - 1450 (Panunzio)" "BITECA" "2744" "1701 - 1800"
我不知道這是這將需要用的R專家有5分鐘的談話的一件事情?任何幫助將不勝感激!謝謝 - PFS
EDITS
(一)以響應以下的要求,該文件在步驟1(BITECA.toy.XML)解析是這裏https://www.dropbox.com/s/6fs0usac2l1m76m/BITECA.toy.xml?dl=0
(二)澄清 - 完整的XML文件有數千的「manid」項,而不僅僅是幾個圖所示
給'動物園:: na.locf'看看 – hrbrmstr