我有一個「大」設置線的劃定完整的句子,我正在用Hadoop處理。我開發了一個映射器,將一些我最喜歡的NLP技術應用到它。有幾種不同的技術可以映射到原始語句集,而我在縮小階段的目標是將這些結果收集到一個組中,以便組中的所有成員共享相同的原始語句。解析用Hadoop批量文本:最佳實踐生成密鑰
我覺得利用整個句子的關鍵是一個壞主意。我覺得產生一些哈希值的句子可能無法工作,因爲有限數量的鍵(不合理的信念)。
誰能推薦生成唯一的密鑰對每個句子最好的辦法/做法?理想情況下,我想維護秩序。但是,這不是主要要求。
Aνtίο,
你可以給我一個價值空間的粗略數字嗎?我需要擴展應用程序,並擔心在測試環境中有解決方案,但以後會出現問題。 – sholsapp 2010-07-28 03:32:44
SHA-1輸出160位的哈希值,其中有2^160元素的價值空間......我有點懷疑你要去比,哦更多的句子,2^40個左右(那將會是一種每個字符在平均句子長度上爲terabyte)。 – Amber 2010-07-28 04:30:29