0

對於大量的網絡開發知識,我承認是「n00b」,所以請耐心等待。建立基於詞彙頻率表/分佈的搜索引擎?

我有一個網站的想法,這個想法的一部分涉及掃描特定的網頁,然後按頻率(考慮上下文)建立「關鍵字」的排名表,以便爲所述頁面構建「配置文件」。

我的問題是雙重的:

A)什麼編程語言將是大量數據的)工作最適合於這一目的(快速,特別好。

B)我應該使用什麼樣的數據結構來創建這些頻率表,以便快速高效地分析/比較其他頁面/表格?另外,我應該如何自行存儲表格,以便快速瀏覽表格並確定相關性?我基本上想創建一個基於某些啓發式和某些內容的搜索引擎。

這個想法現在比我大,但我想解決它。

回答

1

第一個合理的答案,然後一些解釋。 a)。

a)。任何語言。幾乎所有的編程語言都可以工作。 b)。所有類型的結構。這取決於具體的任務。

有一個計算機科學領域稱爲「數據挖掘」。嘗試搜索這些關鍵字。有大量的系統和庫,如SOLR,Mallet,Serene,RapidMiner,R。不同的庫使用不同的語言。我建議先從你最熟悉的那個開始。

也許讀這第一:http://en.wikipedia.org/wiki/Tf%E2%80%93idf

+0

我一直在閱讀了很多關於數據挖掘......這個任務我要基本建成的流行詞每個項目在數據庫中的頻率分佈(每個人都有一個個人資料頁面在某處)。然後,用戶輸入關鍵字,點擊搜索,我需要一種算法,可以將給定的鍵與我的頻率分佈的巨大列表進行比較以找到最佳匹配。將MySQL用於分貝,但我仍然想知道找到匹配的最快捷方式是什麼......因爲我認爲這需要花費很長時間。散列表在這樣的情況下是否合理? – araisbec 2013-04-05 13:56:21