2016-11-07 88 views
0

你好,我有這種格式的倒排索引格式的文本是:減少索引格式的大小:文本

長期文檔1,書2 poids1 poids2

我想減少他的大小我haave降低名字文檔例如 文件1個將成爲1 ..也爲重例如2.5565465454重量將是2.55像這樣examle在java中的

BigDecimal bd = new BigDecimal(w); 
bd = bd.setScale(2, RoundingMode.HALF_UP); 

請如果u有任何想法ü可以建議我以減少我不知道的大小編輯的代碼,但只是一些想法

+0

爲什麼你想減少的文本版本大小?對於文本,通過一個標準的壓縮實用程序,如gzip ...否則,如果你想減少非文本倒排文件結構本身的大小,使用索引prunning ...在哪裏你可以從帖子列表中刪除條目太低的重量... – Debasis

+0

謝謝你,但它的想法,以保持罕見的話,所以我不知道如果它索引prunning將幫助我 –

回答

0

你已經給出的例子是一個文本文件,可以從現有索引的文本轉儲獲得(記住,指數基本上是組織爲二進制,即非文本文件)。

在這方面,沒有太多的使用修剪長文件名,例如「文檔-1」到「D1」,因爲在典型的實現中,例如Lucene,文檔和術語由整數ID標識,而不是由它們的名稱標識。

此外,還有在修整後小數沒有意義的,例如「0.25555」到「0.25」,因爲它們會佔用相同數量的存儲空間(通常爲64位)。

什麼可以真正幫助您就是Apache Lucene的,這是記錄here的整理實用程序。該軟件包支持通過各種不同的啓發式算法進行索引修整,其中最簡單的是基於tf和tf-idf的修剪,從術語t的發佈列表中去除條目(t,d), -off TF(噸,d)TF(噸,d)X IDF(t)的值