我有問題,讀一箇中等大小的數據集爲R.讀的Audioscrobbler數據爲R
的數據集是由出版的Audioscrobbler數據庫,現在合併了Last.fm,對此音樂的用戶收聽。該數據集可用於here,它有三個數據集:主要(和更大)數據集,包含用戶ID,藝術家ID以及用戶收聽指定藝術家的次數。第二個有兩列:藝術家ID和藝術家的名字。這是我遇到問題的數據集。
該數據集似乎格式不正確,我不知道該怎麼做。
我嘗試這樣做:
test <- scan("artist_data.txt", what=list("numeric", "character"), fill=T)
但是,它返回一個列表,不能很好地分離數據和它說「閱讀18996個記錄」,當我懷疑有更多的記錄(雖然我不知道,因爲我無法讀取數據!)。
任何想法?
對不起,沒有給出一個容易重現的例子,但由於我無法讀取數據,我不知道如何給出一個可重複的例子(我知道這會讓你很難給出答案但是你可以下載數據集,但可能需要一些時間,再次抱歉)。
不要忘記嵌入式回車符(CONTROL-M的或ASCII X0D)在一些藝術家的名字,它們比行結尾不同的。 – 2012-03-16 15:35:29