2014-12-04 45 views
0

將所需數據複製到文本文件中問題:輸入數據是文本文件。僅複製統計數據並將其粘貼到另一個文本文件中。 我們只能在輸出中看到統計數據。但忽略了數據包在文本使用R

輸入:

統計 - R的是用來進行數據分析統計軟件。它包括大量的統計程序,如 t檢驗,卡方檢驗,標準線性模型,儀器 變量估計,局部多項式迴歸等。它還提供高級圖形功能。

R提供各種統計和圖形技術,包括線性和非線性建模,經典統計測試,時間序列分析,分類,聚類等。

R很容易通過函數和擴展來擴展,而R社區以其在 包中的活躍貢獻而着稱。

軟件包 - R的功能通過用戶創建 包,這讓專門的統計技術,圖形 設備(GGPLOT2),導入/導出功能,報表工具(knitr, Sweave)擴展等

這些軟件包主要在R中開發,有時用Java,C 和Fortran開發。 R的安裝 包含一套核心包,其中包含5,800多個附加包和120,000個函數。

統計信息-R是一種面向對象的編程語言。

S-PLUS是一個商業版本相同的S編程語言的R是一個免費的版本

SAS是可以與大型數據集,如人口普查數據使用專有軟件。

包裝 - 其他R包資源包括Crantastic,社區 網站評級和審查所有CRAN包和R-Forge。

版本0.16 - 這是最後一個alpha版本,主要由 Ihaka和紳士開發。 「White Book」(參見S歷史)中的大部分基本功能都已實施。郵件列表上 4月1日開始,1997年

輸出:

統計 - R的是用來進行數據分析統計軟件。它包括大量的統計程序,如 t檢驗,卡方檢驗,標準線性模型,儀器 變量估計,局部多項式迴歸等。它也 提供高級圖形功能。

R提供各種統計和圖形技術,包括線性和非線性建模,經典統計測試,時間序列分析,分類,聚類等。

R很容易通過函數和擴展來擴展,而R社區以其在 包中的活躍貢獻而着稱。

Statistics - R是一種面向對象的編程語言。

S-PLUS是一個商業版本相同的S編程語言的R是一個免費的版本

SAS是可以與大型數據集,如人口普查數據使用專有軟件。

R代碼裏面:

setwd("xxx") 

text <- readLines("data.txt") 

q3<-data.frame(text) 

df<- q3[!(is.na(q3$text) | q3$text==""), ] 

q4<-data.frame(df) 

a<-Search(q4, "Statistics") 

View(a) 

只有包含統計款字被捕獲,但不休息。 需要的幫助構建R代碼裏面

+0

R是幹這活很糟糕的工具。我會建議,sed,grep,perl,python ... – N8TRO 2014-12-04 06:24:17

+0

段落是否由一行組成? – 2014-12-04 09:36:41

+0

段落包含多行 – 2014-12-04 12:33:56

回答

0

可以str_extract_all使用:

left.border <- "Statistics" 
rigth.border <- "Packages" 
pattern <- paste0(left.border, "(.*?)", right.border) 
str_extract_all(text,pattern) 
[[1]] 
[1] "Statistics - R is statistical software which is used for data analysis. It includes a huge number of statistical procedures such as t-test, chi-square tests, standard linear models, instrumental variables estimation, local polynomial regressions, etc. It also provides high-level graphics capabilities.\n\nR provides a wide variety of statistical and graphical techniques, including linear and nonlinear modeling, classical statistical tests, time-series analysis, classification, clustering, and others.\n\nR is easily extensible through functions and extensions, and the R community is noted for its active contributions in terms of packages.\n\nPackages" 
[2] "Statistics - R is an object oriented programming language.\n\nS-PLUS is a commercial version of the same S programming language that R is a free version\n\nSAS is proprietary software that can be used with very large datasets such as census data.\n\nPackages"  

然後,您可以remplace right.border空的空間在年底將「包」。

最好成績, ZP