2015-05-14 107 views
3

我正在試着分析論文「Computing Semantic Relatedness using Wikipedia-based Explicit Semantic Analysis」。潛在語義分析與顯式語義分析之間的區別

其中描述的系統的一個組成部分,我目前正在處理的是潛在和顯式語義分析之間的區別。

我一直在撰寫一份文件來封裝我的理解,但它有點「拼湊在一起」,來自我不能100%理解的來源,所以我想知道我是不是已經出現了與準確,這裏是:

When implementing a process like singular value decomposition (SVD) or Markov 
chain Monte Carlo machines, a corpus of documents can be partitioned on the 
basis of inherent characteristics and assigned to categories by applying different 

weights to the features that constitute each singular data index. In this highdimensional 
space it is often difficult to determine the combination of factors 
leading to an outcome or result, the variables of interest are 「hidden」 or latent. 
By defining a set of humanly intelligible categories, i.e. Wikipedia article 
pages as a basis for comparison [Gabrilovich et al. 2007] have devised a system 
whereby the criteria used to distinguish a datum are readily comprehensible, 
from the text we note that 「semantic analysis is explicit in the sense that we 
manipulate manifest concepts grounded in human cognition, rather than ‘latent 
concepts’ used by Latent Semantic Analysis」. 
With that we have now established Explicit Semantic Analysis in opposition 
to Latent Semantic Analysis. 

是準確的嗎?

有關此主題的信息有點稀疏。 This question表面上處理類似的問題,但不是真的。

+0

這不是關於編程。您可能希望將該問題遷移到統計信息。 – cel

+1

這當然是關於編程的,因爲它是關於一個算法,以及如果算法沒有被包含,編程是什麼?此外,還有一個先例提出這樣一個問題,即我所鏈接的問題有600多個觀點,表明了這種查詢的共同興趣 –

+0

請注意,許多機器學習算法需要深入理解統計背景 - 是的,你是對的,這裏並沒有完全脫離主題。但請相信我 - 對於這個問題的一個很好的回答,你不需要一個好的程序員,你需要一個擅長統計的人。 :) – cel

回答

1

潛在語義分析和所謂的顯式語義分析之間的區別在於使用的語料庫和模型化詞義的向量的維度。

潛在語義分析從基於文檔的單詞向量開始,它捕獲每個單詞與其出現的文檔之間的關聯,通常使用權重函數(如tf-idf)。然後使用奇異值分解將這些單詞向量的維度降低到(一般)300。與原始尺寸(與文檔相對應)相比,這300個新尺寸沒有直接的解釋。因此他們被稱爲「潛伏」。然後可以使用LSA通過組合文本中單詞的所有向量來對文本進行分類。

從你提到的論文中,我明白顯式語義分析也是一種基於文檔的模型:它根據維基百科文章中出現的單詞來建模單詞。它不同於潛在語義分析,然而,(a)語料庫(維基百科)不能自由選擇,(b)不涉及維度減少。同樣,文本中單詞的向量可以組合起來分類或解釋文本。

+0

:在字模型的傳統袋會有一種全球性的詞典和文本將其填充,全球字典,以這種方式也有很多概念的能力,每一個的基礎上進行評估有它自己的「全球詞典」的種類和文本進行評估,以確定哪個維基百科他們最相似的「概念」,是你的理解呢? _________________________________________________________是什麼,我在上面的段落,從OP灰一說,是任何innacurate的? –

+1

您的評論和灰色段落是正確的。我應該在LSA中補充一點,你有他們自己的「詞典」中的「概念」(簡化矩陣中的300個維度),但是這些概念不如維基百科概念易於解釋。 – yvespeirsman

1

一個簡單的解釋是:

ESA - 使用知識庫等(維基百科)來創建映射的話內容倒排索引(即,維基百科頁面發生在字的標題)。然後對這個詞的向量表示進行操作,其中每個詞現在是一個標題爲0,1的矢量。

LSA - 使用奇異值分解原理將word-doc矩陣投影到較低等級的空間中,使得word-doc矢量表示的點積在任何文檔中都不會彼此同時出現,但它們與類似的一組詞語共同出現(即Imagine Cat和Car從未在文檔中同時出現,但可以在Man中出現在某個文檔D_1中,Car與Man在其他文檔D_2中共同出現)更高。