2011-02-13 119 views
2

我正在尋找一種很好的方法來從使用SQL或C#的頁面上的文本中提取相關關鍵字。我打算用這些鏈接將這些關鍵字鏈接到網站的其他部分以導航到相關內容。這在一些博客中看起來很常見。使用c#或SQL從文本中提取關鍵字

+1

誰決定哪些關鍵字?這是一些預定義的列表嗎? – 2011-02-13 15:37:27

回答

2

一個簡單的方法可能是使用C#下載到內存中,過濾掉HTML標籤,Javascript等(即識別真實內容),將其分解爲單獨的單詞,過濾器與高頻出現的單詞列表在任何通用書面文件中,計算文件中出現的每個單詞的頻率,將出現最多的單詞作爲關鍵詞。

您需要隨着時間的推移開發您的過濾詞列表。

根據您的域名,可能會更恰當地採用相反的方式,並建立一個特定於域的關鍵字列表(或關鍵字組,以便識別「安全帶」和「安全帶」等)作爲同一個詞),並找出每個詞或詞組在給定文檔中出現的次數。那些超過某個閾值,或者前5個或者其他什麼的將是與該文檔相關的關鍵字。