我正在試着分析論文「Computing Semantic Relatedness using Wikipedia-based Explicit Semantic Analysis」。潛在語義分析與顯式語義分析之間的區別
其中描述的系統的一個組成部分,我目前正在處理的是潛在和顯式語義分析之間的區別。
我一直在撰寫一份文件來封裝我的理解,但它有點「拼湊在一起」,來自我不能100%理解的來源,所以我想知道我是不是已經出現了與準確,這裏是:
When implementing a process like singular value decomposition (SVD) or Markov
chain Monte Carlo machines, a corpus of documents can be partitioned on the
basis of inherent characteristics and assigned to categories by applying different
weights to the features that constitute each singular data index. In this highdimensional
space it is often difficult to determine the combination of factors
leading to an outcome or result, the variables of interest are 「hidden」 or latent.
By defining a set of humanly intelligible categories, i.e. Wikipedia article
pages as a basis for comparison [Gabrilovich et al. 2007] have devised a system
whereby the criteria used to distinguish a datum are readily comprehensible,
from the text we note that 「semantic analysis is explicit in the sense that we
manipulate manifest concepts grounded in human cognition, rather than ‘latent
concepts’ used by Latent Semantic Analysis」.
With that we have now established Explicit Semantic Analysis in opposition
to Latent Semantic Analysis.
是準確的嗎?
有關此主題的信息有點稀疏。 This question表面上處理類似的問題,但不是真的。
這不是關於編程。您可能希望將該問題遷移到統計信息。 – cel
這當然是關於編程的,因爲它是關於一個算法,以及如果算法沒有被包含,編程是什麼?此外,還有一個先例提出這樣一個問題,即我所鏈接的問題有600多個觀點,表明了這種查詢的共同興趣 –
請注意,許多機器學習算法需要深入理解統計背景 - 是的,你是對的,這裏並沒有完全脫離主題。但請相信我 - 對於這個問題的一個很好的回答,你不需要一個好的程序員,你需要一個擅長統計的人。 :) – cel