2013-05-01 85 views
0

我們假設,我正在訪問大學網頁。那裏有許多教師資料。儘管這些頁面在語法上沒有關聯,但它們在語義上是相關的。我如何衡量這種關係?其實我應該關注哪個參數來找到關係?如何測量兩個網頁之間的語義關係

回答

0

This SO帖子回答瞭如何計算短語之間的語義相似度。 在你的情況下,你只需要將不同的頁面表示爲文檔並遵循相同的方法。

在你的情況下,你的算法可以利用更多的信息,如頁面或出版物之間的鏈接(在研究人員的情況下)。我希望鏈接有助於有點...

0

這裏一個簡單但非常好的算法:

肯定的頁面爲每個教師和鏈接的網頁,包含語義特徵這位教授文本。 假設您創建了一系列由教授頁面上的文本和鏈接頁面上的文本串聯組成的單詞(您可以繼續連接文本以繼續沿着鏈接到任意深度)。

現在,您可以基於使用向量空間模型提取的信息對教授進行聚類:每個教授都由一個向量表示,其組成部分是包含在提取的頁面中的單詞和與術語 - 頻率相關的值。 餘弦相似性將完成剩餘的工作。

相關問題