在R中的文本挖掘中表示羣集的更好的羣集樹狀圖

在三個文檔中（除去稀疏項後）我有大約1140個術語。我想獲得有關集羣的信息。如附圖所示，我製作了集羣，但我無法閱讀它們。我也嘗試了k-均值集羣，但同樣的問題依然存在。我對所有的術語都沒有太大的興趣，但明確界定的只有少數三四個團隊可以完成這項工作。我一直在R中使用tm包進行文本挖掘。其次，我也在尋找在單個文檔中尋找關聯的方法;因此，如何將文本文件分割爲多個文本文件，即如果我的文件有三個句子： Doc：「我的名字是ABC，我住在XYZ，我是TUV的堂兄。」我想將其拆分爲： Doc_1：我的名字是ABC。 Doc_2：我住在XYZ。 Doc_3：我是TUV的表弟。在R中的文本挖掘中表示羣集的更好的羣集樹狀圖

這樣我在dtm中有三個行和一列的項，而不是單個行和一列的項。

Cluster_Dendrogram_Plot1 和 Another Format2

來源

2017-09-16 Shubham Sharma

請插入圖片，以便我們可以看到它。另外，你用什麼代碼來做你所描述的？ – lawyeR

單擊最後一行上的超鏈接（1和2）：luster_Dendrogram_Plot1圖像的另一個Format2。代碼我已經使用，直到現在：d < - dist（t（dtms_1），方法=「euclidian」） fit <-hclust（d = d，method =「complete」） library（cluster） d < - dist我試過的其他東西是K均值聚類，並且切割了（tm，tm），方法=「euclidian」） fit <-hclust（d = d，method =「complete」） plot在特定高度的樹，但沒有解決方案。 –

你問多個問題。我會解決你的第一個問題。期望在圖表中放入1140個字符串並期望看到任何內容似乎是不切實際的。你需要一種能夠一次看到它的方法。你可以砍樹並在樹的下半部分看一小塊，以控制你一次看到多少。

這裏是一個例子。即使有150分，也很難看到發生了什麼事情。

D = as.dendrogram(hclust(dist(iris[,1:4]))) 
plot(D)

但是，如果你砍倒，你可以看看個別較低的樹枝和理解的那部分。

Cuts = cut(D, 4) 
plot(Cuts$lower[[2]])

當然，你需要嘗試了一下週圍找好地方削減您樹。

來源

2017-09-16 15:15:44 G5W

嗨....好吧，我對1140條款都不太感興趣。我只對有關羣集的信息感興趣，這些羣集是特定羣集中的術語，無論它們是重要的（對於研究中的文檔還是研究中的問題都是上下文的），或者不重要。所以即使是集羣中術語的知識來代替樹狀圖也能達到我的目的。同時，我決定手動分割文本文件並刪除導致整個術語數量較少的稀疏術語，然後執行產生可讀樹狀圖的聚類。 –

在R中的文本挖掘中表示羣集的更好的羣集樹狀圖

回答

相關問題