這是一個很遠的鏡頭,但我希望有人遇到類似的情況,因爲我正在尋找一些建議,以便如何將一組大型word2vec模型有效地帶入生產環境環境。將Word2Vec模型有效地導入生產服務
我們有一系列維度爲300的訓練好的w2v模型。由於基礎數據 - 帶POS標記詞的龐大語料庫;專業詞彙量高達100萬字 - 這些模型變得相當龐大,我們正在研究如何將這些內容暴露給我們的用戶,而不用花費太高的基礎設施費用。
除了試圖更好地控制詞彙量,顯然,特徵向量的降維是一個選項。有沒有人知道這方面的出版物,特別是關於這將如何影響模型質量,以及如何最好地衡量這一點?
另一種選擇是預先計算每個詞彙詞的前X個最相似的單詞並提供查找表。由於模型尺寸很大,目前這種方法效率很低。是否有任何已知的啓發式方法可以將必要的距離計算的數量從n x n-1減少到更低的數量?
非常感謝!
非常感謝您的詳細解答,想法和鏈接到ANNOY圖書館和相關問題!不幸的是,我們在生產中綁定了Java,無法運行Python服務。不過我會調查float16的操作思路。就我們的目的而言,我們其實對低頻率的類似詞語非常感興趣,所以過濾是......我只會猶豫不決。我會嘗試一些想法,我在本文中找到:https://rd.springer.com/chapter/10.1007/978-3-319-30671-1_15。我認爲我們需要建立我們自己的評估數據集來評估模型的質量變化。 – Matthias