對於我們構建的應用程序,我們使用簡單的統計模型進行詞語預測(如Google Autocomplete)來指導搜索。預測詞組而不僅僅是下一個詞
它使用從相關文本文檔的大型文集收集的ngram序列。通過考慮先前的N-1個詞,它使用Katz back-off以概率的降序建議5個最可能的「下一個詞」。
我們希望將此擴展爲預測短語(多個單詞)而不是單個單詞。但是,當我們預測一個短語時,我們不希望顯示其前綴。
例如,考慮輸入the cat
。
在這種情況下,我們想預測如the cat in the hat
,但不是the cat in
&而不是the cat in the
。
假設:
我們沒有獲得過去的搜索統計
我們沒有標記的文本數據(例如,我們不知道的部分語音)
什麼是典型的W ^是否可以進行這種多詞預測?我們嘗試了較長詞組的乘法和加法加權,但我們的權重是任意的,並且適合我們的測試。