自然語言CFG構建器算法

我在自然語言處理項目中工作。它旨在建立阿拉伯語圖書館。我們正在開發一個POS tagger，現在我正在考慮語法階段。由於阿拉伯語和其他許多語法都有複雜的語法，因此建立它們的上下文無關語法（CFG）非常困難。出於這個原因，我想出了一個算法，使用無監督學習爲標記語料庫中的任何語言構建CFG（具有概率PCFG）。爲了解釋該算法假設我已這三個標記語句作爲輸入： 1-動詞名詞 2-動詞名詞主題 3-動詞名詞主題副詞的算法給出： 1）A - >動詞名詞 2） B→A主語 3）C→B副詞。
我們爲每個陳述重複此方法，以便我們可以完成特定的PCFG。算法的主要功能超出了查看整個陳述的事實，所以概率可以是有條件的並且是特定的。之後，可以應用CKY算法爲使用概率的新語句選擇最佳樹。您是否期望這個算法是好還是不好，是否值得繼續改進。自然語言CFG構建器算法

來源

2009-09-11 Hani

我爲我的碩士做了類似的工作。論文 - 學習CFG規則（沒有概率）使用部分語法和POS標記。請參閱我對this question的回答以獲取有關學習PCFG的參考文獻列表。一種方法是學習詞彙化的文法，其中包括文字信息和節點名稱。

如果沒有上下文，很難回答你的問題：你認爲一個好的算法是什麼？一個能夠提供足夠好的語言模型的人嗎？這最大限度地減少了統計測量？這足夠有效嗎？考慮到阿拉伯語豐富的形態，也許你可以增加語法的形態 - 例如，將性別和號碼協議功能添加到它。

來源

2009-09-11 21:49:57

自然語言CFG構建器算法

回答

相關問題