我從數據框創建Copus。我將它作爲VectorSource
傳遞,因爲只有一列我想用作文本源。這可以發現,但是我需要文集中的文檔ID來匹配數據框中的文檔ID。文檔ID存儲在原始數據框的獨立列中。如何手動設置文檔中的文檔ID?
df <- as.data.frame(t(rbind(c(1,3,5,7,8,10),
c("text", "lots of text", "too much text", "where will it end", "give peas a chance","help"))))
colnames(df) <- c("ids","textColumn")
library("tm")
library("lsa")
corpus <- Corpus(VectorSource(df[["textColumn"]]))
運行此代碼將創建一個語料庫,但是文檔ID從1-6運行。有沒有辦法用文檔ID 1,3,5,7,8,10創建語料庫?
它的工作原理!我會稍微等一下,看看是否有人能夠想出更優雅的東西,也許在實際的語料庫創建過程中分配它們。但是,如果他們不能,我會很樂意接受這一點,如果不是你單獨回答的速度;) – user1098798 2013-02-13 11:31:16
@ user1098798謝謝!我稍微修改了我的答案,因爲顯然你可以直接重用原始數據中的ID ... – juba 2013-02-13 11:43:13