2015-10-27 130 views
0

這是我從here得到的數據集。 當我讀拳頭在數據集中,並做head功能雙重檢查,這是輸出我得到所示的第一變量7,但我會得到用read_excel讀取excel文件

Variables not shown: Status 11/18 (chr), Location 11/18 (chr), Age 11/18 (dbl), age grp (chr), Gender (chr), 
    Ethnic (chr), Prev Relig Aff (chr), Adult/Minor (chr), Resident US Pre-Guyana (chr), Occup US Pre Guyana 
    (chr), Govt Income (chr), JT Residence (chr), Occup in JT ~77 (chr), Occup JT ~Aug 78 (chr) 

這裏是我的代碼

library(readxl) 
require(mosaic) 
Jonestown = read_excel("C:/Users/Deborah/Desktop/School/STA 418/Homework/jonestown.xls", sheet = 1, col_names = TRUE, skip=0) 
head(Jonestown) 

接下來,我需要創建一個名爲未成年人數據集,包括只
(一)人認定爲小
(二)誰是出生在美國和
(三)僅具有VAR iables出生國家,圭亞那入境,地位11/18,年齡11/18,性別和種族。你最終應該有293個觀察值和6個變量。這是我到目前爲止

minor = Jonestown$`Adult/Minor`=="Minor" & Jonestown$`Birth Country`=="USA" 
Minors = Jonestown[minor,] 

我不顯示下一步該去哪裏。有人能幫我嗎?

回答

1

請改用此包。工作對我來說:

install.packages("xlsx")#Excel 
require("xlsx")#Excel 
read.xlsx("C:/Users/Deborah/Desktop/School/STA 418/Homework/jonestown.xls",1) 
0

首先,輸出你的第一個問題(「變量未顯示」),是完全正常的,並與read_excel打交道時的預期。更重要的一點是,你可能會注意到(試驗中)read_excel返回一個類tbl_df,這是來自Hadleyverse的一些軟件包,旨在提供更直觀/優美的演示和處理data.frames。它很難根據當前窗口的寬度(字符數)限制輸出或「查看」data.frame的內容。 (當然,如果你以前做過library(dplyr),它只會這樣做。)

其次,對於過濾,因爲你已經在使用Hadleyverse的一個組件,所以我會建議第二個(儘管這不是必須的這裏):

library(dplyr) 
dat %>% 
    filter(`Adult/Minor` == 'Minor', `Birth Country` == 'USA') %>% 
    select(`Birth State`, `Guyana Entry`) 
## Source: local data frame [293 x 2] 
## Birth State Guyana Entry 
##   (chr)  (time) 
## 1   CA   <NA> 
## 2   MI 1977-09-23 
## 3   MS 1977-08-28 
## 4   CA   <NA> 
## 5   CA 1977-07-23 
## 6   CA   <NA> 
## ... 

這只是一個開始,你應該能夠引入你想要的其他變量。我強烈建議您使用dplyr教程,例如vignette that comes with it

注:(?過於苛刻一個字),因爲列名不嚴格的法律爲[R(見?data.frame?make.names),你需要使用反引號,而不是單或雙引號。