在三個文檔中(除去稀疏項後)我有大約1140個術語。我想獲得有關集羣的信息。如附圖所示,我製作了集羣,但我無法閱讀它們。我也嘗試了k-均值集羣,但同樣的問題依然存在。我對所有的術語都沒有太大的興趣,但明確界定的只有少數三四個團隊可以完成這項工作。我一直在R中使用tm包進行文本挖掘。其次,我也在尋找在單個文檔中尋找關聯的方法;因此,如何將文本文件分割爲多個文本文件,即如果我的文件有三個句子: Doc:「我的名字是ABC,我住在XYZ,我是TUV的堂兄。」 我想將其拆分爲: Doc_1:我的名字是ABC。 Doc_2:我住在XYZ。 Doc_3:我是TUV的表弟。在R中的文本挖掘中表示羣集的更好的羣集樹狀圖
這樣我在dtm中有三個行和一列的項,而不是單個行和一列的項。
和
請插入圖片,以便我們可以看到它。另外,你用什麼代碼來做你所描述的? – lawyeR
單擊最後一行上的超鏈接(1和2):luster_Dendrogram_Plot1圖像的另一個Format2。代碼我已經使用,直到現在:d < - dist(t(dtms_1),方法=「euclidian」) fit <-hclust(d = d,method =「complete」) library(cluster) d < - dist我試過的其他東西是K均值聚類,並且切割了(tm,tm),方法=「euclidian」) fit <-hclust(d = d,method =「complete」) plot在特定高度的樹,但沒有解決方案。 –