我正在尋找一種將性別函數應用於名稱列表(我從XML中提取)的好方法,但我想保留所有行以便加入其他數據。有什麼建議可以很好地解決這個問題?R應用並保持包含性別包的所有行
目前,我從我的示例腳本中刪除了一行名爲「Hjuk」的行。
當性別功能失敗時,我想將此性別標識爲「未知」或NA。我的完整數據集相當大,運行大約11000行。感謝您的任何建議。
下面是一個例子:
require(gender)
df0 <- data.frame(c("Sara","Tiffany","Tyler","Rajdeep","Josee","Hjuk"), stringsAsFactors = FALSE)
colnames(df0) <- "v1"
df1 <- apply(df0, 1, function(x) gender(x))
df2 <- do.call(rbind, lapply(df1, data.frame, stringsAsFactors=FALSE))
df2
name proportion_male proportion_female gender year_min year_max
1 Sara 0.0029 0.9971 female 1932 2012
2 Tiffany 0.0034 0.9966 female 1932 2012
3 Tyler 0.9714 0.0286 male 1932 2012
4 Rajdeep 0.7786 0.2214 male 1932 2012
5 Josee 0.0000 1.0000 female 1932 2012
這樣做沒有看到它的努力幫助功能。無論如何將「未知」選項放在函數本身中? –
它似乎沒有內置此功能。我想知道我是否可以返回NA或者可能使用密鑰連接到原始數據集。我可能只是需要更多的咖啡... – bridgbro