我在自然語言處理項目中工作。它旨在建立阿拉伯語圖書館。我們正在開發一個POS tagger,現在我正在考慮語法階段。由於阿拉伯語和其他許多語法都有複雜的語法,因此建立它們的上下文無關語法(CFG)非常困難。出於這個原因,我想出了一個算法,使用無監督學習爲標記語料庫中的任何語言構建CFG(具有概率PCFG)。爲了解釋該算法假設我已這三個標記語句作爲輸入: 1-動詞名詞 2-動詞名詞主題 3-動詞名詞主題副詞 的算法給出: 1)A - >動詞名詞 2) B→A主語 3)C→B副詞。
我們爲每個陳述重複此方法,以便我們可以完成特定的PCFG。算法的主要功能超出了查看整個陳述的事實,所以概率可以是有條件的並且是特定的。之後,可以應用CKY算法爲使用概率的新語句選擇最佳樹。 您是否期望這個算法是好還是不好,是否值得繼續改進。自然語言CFG構建器算法
1
A
回答
1
我爲我的碩士做了類似的工作。論文 - 學習CFG規則(沒有概率) 使用部分語法和POS標記。 請參閱我對this question的回答以獲取有關學習PCFG的參考文獻列表。 一種方法是學習詞彙化的文法,其中包括文字信息和節點名稱。
如果沒有上下文,很難回答你的問題:你認爲一個好的算法是什麼? 一個能夠提供足夠好的語言模型的人嗎?這最大限度地減少了統計測量?這足夠有效嗎?考慮到阿拉伯語豐富的形態,也許你可以增加語法的形態 - 例如,將性別和號碼協議功能添加到它。
相關問題
- 1. 自動機:CFG用於下列語言
- 2. 給一個CFG此語言
- 3. 爲語言生成CFG
- 4. 在生成CFG的語言
- 5. 自然語言自動化?
- 6. 創建自然語言問題
- 7. 從AST構建CFG
- 8. 在Ruby中構建「半自然語言」DSL
- 9. 英語自然語句算法
- 10. 帶自然語言環境的字符串組塊算法
- 11. 自然語言處理算法電子郵件的心情
- 12. ibm bluemix自然語言分類器/
- 13. 自然語言處理 - Truecaser分類器
- 14. 布爾計算器語言的語法
- 15. ANTLR /語法問題:計算器語言
- 16. 自然語言處理
- 17. 解析自然語言
- 18. 自然語言處理庫
- 19. 功能的「自然語言」
- 20. 自然語言過程
- 21. 序言自然語言解析
- 22. JPA查詢語言標準構建器
- 23. 自然語言界面,語義網
- 24. 自然語言和編程語言在語法環境中有什麼區別?
- 25. 瞭解算法的語言語法
- 26. 構建語法檢查器
- 27. 自然語言處理/文本結構分析起點
- 28. 描述系統架構的受控自然語言方案?
- 29. .NET自然語言編程/別名/(域特定語言)框架
- 30. 從CYK算法(自然語言處理)生成解析樹的步驟