2017-06-05 28 views
0

我剛剛開始使用r中的文本分析。通過閱讀一些示例文本數據,我得到以下結果。如何在文本數據中正確讀取

sms_raw <- read.csv("sms_spam.csv", stringsAsFactors = FALSE) 
> str(sms_raw) 
'data.frame': 5559 obs. of 2 variables: 
$ type   : chr "ham" "ham" "ham" "spam,\"complimentary 4 STAR Ibiza 
Holiday or £10,000 cash needs your URGENT collection. 09066364349 NOW from 
Landline not to l"| __truncated__ ... 
$ text.........: chr "Hope you are having a good week. Just checking 
in;;;;;;;;;" "K..give back my thanks.;;;;;;;;;" "Am also doing in cbe only. 
But have to pay.;;;;;;;;;" "" ... 

在我看來,好像變量沒有正確分離。用頭功能進一步分析數據我得到以下結果:

head(sms_raw) 

type 
1                                          
ham 
2                                          
ham 
3                                          
ham 
4 spam,"complimentary 4 STAR Ibiza Holiday or £10,000 cash needs your 
URGENT collection. 09066364349 NOW from Landline not to lose out! 
Box434SK38WP150PPM18+";;;;;;;;; 
5                                         
spam 
6                                          
ham 

text......... 
1                             
Hope you are having a good week. Just checking in;;;;;;;;; 
2                                   
K..give back my thanks.;;;;;;;;; 
3                              
Am also doing in cbe only. But have to pay.;;;;;;;;; 

有沒有人有建議如何解決這個問題?

+0

這將有助於增加csv文件 – amonk

+1

類型,文本 火腿幾行,希望你有一個很好的周。只要在 火腿檢查,我也只在cbe做。但必須支付。 垃圾郵件,「免費4星級Ibiza假日或£10,000英鎊現金需要您的緊急收藏09066364349現在從固定電話不輸掉!Box434SK38WP150PPM18 +」 垃圾郵件,okmail:親愛的戴夫這是您的最後通知,收集您的4 *特內里費度假或#5000現金獎勵!從座機撥打09061743806。 TCs SAE Box326 CW25WX 150ppm 火腿,Aiya我們稍後再討論...在4挑選你是嗎? 火腿,你是這麼多012 火腿,請問媽媽打電話給父親 – nikinew1

+0

我不明白標題。你能發佈第一條線嗎? – amonk

回答

0

嘗試data.table::fread("sms_spam.csv", stringsAsFactors = FALSE,sep=";")

編輯

你可以試試: input_file<-readLines("/path/of/sms_spam.csv")

+0

'stringsAsFactors = FALSE'是默認''fread',所以沒有必要包含它(它不會傷害,雖然;-)) – Jaap

+0

我試過了。不幸的是它沒有奏效。我收到一條巨大的警告信息。同樣,當用str函數進一步分析數據時,我突然得到10個變量,而不是我想分析的兩個變量 – nikinew1

+0

添加警告,併發送鏈接到csv – amonk

相關問題