Solr powered Tag Cloud

我似乎被Solr faceting-powered標籤雲的邏輯所困。首先，我使用OpenNLP解析我的文檔並從中獲取相關的單詞，因此每個單獨的文檔都被分成n個單詞。這裏基本上是我的Solr的反應是什麼樣子：Solr powered Tag Cloud

<docID> 
<title>My Doc Title</title> 
<content>My Doc Title</content> 
<date_published>My Doc Title</date_published> 
</docID>

我相信一定會有的話在這裏整合的方式。我首先想到的是這樣的：

<docID> 
<title>My Doc Title</title> 
<content>My Doc Title</content> 
<date_published>My Doc Title</date_published> 
<words>word</words> 
<words1>word1</words1> 
<words2>word2</words2> 
<words3>word3</words3> 
<wordsN>wordN</wordsN> 
</docID>

但小面將是不可能的，因爲我不知道我會多少單詞，每場得到的docID，那麼小面將不得不跨越的字段進行（我甚至不確定它是可能的）。我正在嘗試尋找可能的答案，但我似乎被卡住了......最後，我需要製作一個可以獲得我的索引中每個單獨文檔的n個單詞。想法將非常感激。

來源

2011-04-20 Osvaldo Mercado

我會建議使用多值的單個單詞字段並存儲每個文檔的單詞列表。

具有未綁定數量的單詞\ d +字段會使事情複雜化。

如果您使用單個單詞多值字段，您可以獲取所有單詞及其頻率，這些單詞應該足以創建標籤雲。

來源

2011-04-21 07:26:23 Umar

謝謝你，我沒有看到Solr中的多值字段選項。正如我讀過的，有可能正確地處理多值字段......現在啓動一些代碼來測試它。 – 2011-04-25 15:53:12

Solr powered Tag Cloud

回答

相關問題