2011-04-20 58 views
3

我似乎被Solr faceting-powered標籤雲的邏輯所困。首先,我使用OpenNLP解析我的文檔並從中獲取相關的單詞,因此每個單獨的文檔都被分成n個單詞。 這裏基本上是我的Solr的反應是什麼樣子:Solr powered Tag Cloud

<docID> 
<title>My Doc Title</title> 
<content>My Doc Title</content> 
<date_published>My Doc Title</date_published> 
</docID> 

我相信一定會有的話在這裏整合的方式。我首先想到的是這樣的:

<docID> 
<title>My Doc Title</title> 
<content>My Doc Title</content> 
<date_published>My Doc Title</date_published> 
<words>word</words> 
<words1>word1</words1> 
<words2>word2</words2> 
<words3>word3</words3> 
<wordsN>wordN</wordsN> 
</docID> 

但小面將是不可能的,因爲我不知道我會多少單詞,每場得到的docID,那麼小面將不得不跨越的字段進行(我甚至不確定它是可能的)。我正在嘗試尋找可能的答案,但我似乎被卡住了......最後,我需要製作一個可以獲得我的索引中每個單獨文檔的n個單詞。想法將非常感激。

回答

2

我會建議使用多值的單個單詞字段並存儲每個文檔的單詞列表。

具有未綁定數量的單詞\ d +字段會使事情複雜化。

如果您使用單個單詞多值字段,您可以獲取所有單詞及其頻率,這些單詞應該足以創建標籤雲。

+0

謝謝你,我沒有看到Solr中的多值字段選項。正如我讀過的,有可能正確地處理多值字段......現在啓動一些代碼來測試它。 – 2011-04-25 15:53:12