Q

數據庫中的簇文本文檔

2013-04-04 76 views 1 likes

1

我確實在PostgreSQL數據庫中加載了20,000個文本文件，一行中有一個文件，全部存儲在名爲docs的表中，其列doc_id和doc_content。數據庫中的簇文本文檔

我知道大概有8種類型的文件。這裏是我的問題：

我如何找到這些組？
我可以使用一些相似性，相異性度量嗎？
PostgreSQL中是否有一些最長公共子字符串的實現？
PostgreSQL中是否存在一些用於文本挖掘的擴展？（我發現只有Tsearch，但這似乎是最後更新於2007年）

我也許可以使用一些like '%%'或SIMILAR TO，但有可能是更好的方法。

2013-04-04 Tomas Greif

A

回答

1

您應該使用full text search，它是PostgreSQL 9.x核心（又名Tsearch2）的一部分。

對於最長公共子字符串的某種度量（或者相似性，如果您願意的話），您可能可以使用levenshtein()函數 - 擴展的部分fuzzystrmatch擴展。

2013-04-04 08:13:45 mvp

0

您可以使用K-Means或Hierarchical Clustering等聚類技術。
是的，您可以使用文檔之間的餘弦相似性，查看二元期限計數，期限計數，期限頻率或TF-IDF頻率。
我不知道那個。
不確定，但您可以使用R或RapidMiner對數據庫執行數據挖掘。

2013-04-06 17:27:53

相關問題