2016-11-23 73 views
0

我不確定是否已正確理解Term Vectors API「期限矢量API」需要澄清

文件開始說:

返回在特定文檔領域方面的信息和統計數據。文檔可以存儲在索引中或由用戶人爲提供。術語向量是默認實時的,而不是實時的。這可以通過將realtime參數設置爲false來更改。

我猜,長期這裏refered什麼其他一些人也許會叫令牌?或者是term由我們在文檔中獲得的時間定義,我錯過了它?

然後將文檔說繼續有三段的返回值:期限信息期限統計,並現場統計。我猜意思是term信息和統計信息不是這個API返回的唯一東西,對嗎?

然後期限信息包括一個名爲payloads場,這是沒有定義,我不知道這意味着什麼。

然後在現場統計,有文檔頻率的總和與總詞頻一個相當混亂的解釋總和:

設置field_statistics爲false(默認爲true)會忽略:

文件計數(多少文件包含此字段)文件frequen的

總和資本投資者入境計劃我想他們只是總和(文檔頻率的所有方面在這一領域的總和)

合計項頻率(每學期總詞頻在這一領域的總和)

超過其在期間統計的報告的相應數值?

然後在部分行爲它說:

術語和領域的統計數據是不準確的。沒有考慮刪除的文件。該信息僅爲所請求文檔所在的分片檢索。因此,術語和字段統計信息僅作爲相對度量值使用,而絕對值在此情況下無意義。默認情況下,當請求仿真文檔的術語向量時,隨機選擇一個從中獲取統計信息的分片。僅使用routing才能擊中特定的分片。

那麼哪一個呢?是否實時?或者是的期限信息是實時的還是期限統計現場統計僅僅是實際的近似值?

回答

2

我在猜測,這裏的術語是指其他人會稱之爲令牌嗎?或者是由我們在文檔中獲得的時間定義的術語,我錯過了它?

termtoken是同義詞,只是意味着什麼出來的分析過程,並在Lucene的倒排索引已被索引。

然後文件繼續說有三個部分的返回值:術語信息,術語統計和字段統計。我想這意味着術語信息和統計數據不是這個API返回的唯一東西,對嗎?

默認情況下,調用返回術語信息和字段統計信息,但術語統計信息必須用&term_statistics=true明確請求。

然後術語信息包括一個稱爲有效載荷的字段,它沒有定義,我不知道它的含義。

​​是Lucene的概念,很好地解釋了here。術語有效載荷不可用,除非您的自定義分析器使用標記篩選器來提取它們。

在現場統計

然後,有文檔頻率的總和與總詞頻的總和具有相當混亂的解釋:

[...]

我想他們只是總和超過在期限統計中報告相應的值?

「文檔頻率」的總和是該字段中每個詞出現在同一文檔中的次數。因此,如果該字段包含「大棕狐」,它將統計同一文件中出現「大」的次數,同一文件中出現「褐色」次數,同樣出現「狐狸」次數。

「總詞頻率」的總和是每個詞在該字段中出現的次數出現在Lucene索引(位於ES索引的單個分片)中的所有文檔中。因此,如果該字段包含「大棕狐」,則會計算所有文檔中出現「big」的次數,所有文檔中出現「brown」次數,而「fox」出現次數相同。

那麼哪一個呢?是否實時?還是說,術語信息是實時的,術語統計數據和現場統計數據僅僅是現實的近似值?

它是實時在默認情況下,這意味着refresh call由發行,以獲得從Lucene索引新鮮信息_termvectors呼叫時。但是,統計信息只能從單個分片中收集,並不能提供整個ES索引的統計信息(可能由多個分片組成,因此有多個Lucene索引)。