我剛剛開始使用r中的文本分析。通過閱讀一些示例文本數據,我得到以下結果。如何在文本數據中正確讀取
sms_raw <- read.csv("sms_spam.csv", stringsAsFactors = FALSE)
> str(sms_raw)
'data.frame': 5559 obs. of 2 variables:
$ type : chr "ham" "ham" "ham" "spam,\"complimentary 4 STAR Ibiza
Holiday or £10,000 cash needs your URGENT collection. 09066364349 NOW from
Landline not to l"| __truncated__ ...
$ text.........: chr "Hope you are having a good week. Just checking
in;;;;;;;;;" "K..give back my thanks.;;;;;;;;;" "Am also doing in cbe only.
But have to pay.;;;;;;;;;" "" ...
在我看來,好像變量沒有正確分離。用頭功能進一步分析數據我得到以下結果:
head(sms_raw)
type
1
ham
2
ham
3
ham
4 spam,"complimentary 4 STAR Ibiza Holiday or £10,000 cash needs your
URGENT collection. 09066364349 NOW from Landline not to lose out!
Box434SK38WP150PPM18+";;;;;;;;;
5
spam
6
ham
text.........
1
Hope you are having a good week. Just checking in;;;;;;;;;
2
K..give back my thanks.;;;;;;;;;
3
Am also doing in cbe only. But have to pay.;;;;;;;;;
有沒有人有建議如何解決這個問題?
這將有助於增加csv文件 – amonk
類型,文本 火腿幾行,希望你有一個很好的周。只要在 火腿檢查,我也只在cbe做。但必須支付。 垃圾郵件,「免費4星級Ibiza假日或£10,000英鎊現金需要您的緊急收藏09066364349現在從固定電話不輸掉!Box434SK38WP150PPM18 +」 垃圾郵件,okmail:親愛的戴夫這是您的最後通知,收集您的4 *特內里費度假或#5000現金獎勵!從座機撥打09061743806。 TCs SAE Box326 CW25WX 150ppm 火腿,Aiya我們稍後再討論...在4挑選你是嗎? 火腿,你是這麼多012 火腿,請問媽媽打電話給父親 – nikinew1
我不明白標題。你能發佈第一條線嗎? – amonk