我確實在PostgreSQL數據庫中加載了20,000個文本文件,一行中有一個文件,全部存儲在名爲docs
的表中,其列doc_id
和doc_content
。數據庫中的簇文本文檔
我知道大概有8種類型的文件。這裏是我的問題:
- 我如何找到這些組?
- 我可以使用一些相似性,相異性度量嗎?
- PostgreSQL中是否有一些最長公共子字符串的實現?
- PostgreSQL中是否存在一些用於文本挖掘的擴展? (我發現只有Tsearch,但這似乎是最後更新於2007年)
我也許可以使用一些like '%%'
或SIMILAR TO
,但有可能是更好的方法。