1

我確實在PostgreSQL數據庫中加載了20,000個文本文件,一行中有一個文件,全部存儲在名爲docs的表中,其列doc_iddoc_content數據庫中的簇文本文檔

我知道大概有8種類型的文件。這裏是我的問題:

  • 我如何找到這些組?
  • 我可以使用一些相似性,相異性度量嗎?
  • PostgreSQL中是否有一些最長公共子字符串的實現?
  • PostgreSQL中是否存在一些用於文本挖掘的擴展? (我發現只有Tsearch,但這似乎是最後更新於2007年)

我也許可以使用一些like '%%'SIMILAR TO,但有可能是更好的方法。

回答

1

您應該使用full text search,它是PostgreSQL 9.x核心(又名Tsearch2)的一部分。

對於最長公共子字符串的某種度量(或者相似性,如果您願意的話),您可能可以使用levenshtein()函數 - 擴展的部分fuzzystrmatch擴展。

0
  1. 您可以使用K-Means或Hierarchical Clustering等聚類技術。

  2. 是的,您可以使用文檔之間的餘弦相似性,查看二元期限計數,期限計數,期限頻率或TF-IDF頻率。

  3. 我不知道那個。

  4. 不確定,但您可以使用R或RapidMiner對數據庫執行數據挖掘。