2017-09-16 74 views
0

在三個文檔中(除去稀疏項後)我有大約1140個術語。我想獲得有關集羣的信息。如附圖所示,我製作了集羣,但我無法閱讀它們。我也嘗試了k-均值集羣,但同樣的問題依然存在。我對所有的術語都沒有太大的興趣,但明確界定的只有少數三四個團隊可以完成這項工作。我一直在R中使用tm包進行文本挖掘。其次,我也在尋找在單個文檔中尋找關聯的方法;因此,如何將文本文件分割爲多個文本文件,即如果我的文件有三個句子: Doc:「我的名字是ABC,我住在XYZ,我是TUV的堂兄。」 我想將其拆分爲: Doc_1:我的名字是ABC。 Doc_2:我住在XYZ。 Doc_3:我是TUV的表弟。在R中的文本挖掘中表示羣集的更好的羣集樹狀圖

這樣我在dtm中有三個行和一列的項,而不是單個行和一列的項。

Cluster_Dendrogram_Plot1Another Format2

+0

請插入圖片,以便我們可以看到它。另外,你用什麼代碼來做你所描述的? – lawyeR

+0

單擊最後一行上的超鏈接(1和2):luster_Dendrogram_Plot1圖像的另一個Format2。代碼我已經使用,直到現在:d < - dist(t(dtms_1),方法=「euclidian」) fit <-hclust(d = d,method =「complete」) library(cluster) d < - dist我試過的其他東西是K均值聚類,並且切割了(tm,tm),方法=「euclidian」) fit <-hclust(d = d,method =「complete」) plot在特定高度的樹,但沒有解決方案。 –

回答

2

你問多個問題。我會解決你的第一個問題。期望在圖表中放入1140個字符串並期望看到任何內容似乎是不切實際的。你需要一種能夠一次看到它的方法。你可以砍樹並在樹的下半部分看一小塊,以控制你一次看到多少。

這裏是一個例子。即使有150分,也很難看到發生了什麼事情。

D = as.dendrogram(hclust(dist(iris[,1:4]))) 
plot(D) 

Full tree

但是,如果你砍倒,你可以看看個別較低的樹枝和理解的那部分。

Cuts = cut(D, 4) 
plot(Cuts$lower[[2]]) 

One Branch

當然,你需要嘗試了一下週圍找好地方削減樹。

+0

嗨....好吧,我對1140條款都不太感興趣。我只對有關羣集的信息感興趣,這些羣集是特定羣集中的術語,無論它們是重要的(對於研究中的文檔還是研究中的問題都是上下文的),或者不重要。所以即使是集羣中術語的知識來代替樹狀圖也能達到我的目的。同時,我決定手動分割文本文件並刪除導致整個術語數量較少的稀疏術語,然後執行產生可讀樹狀圖的聚類。 –