2010-05-12 93 views
3

我正在研究一種功能,即對基於拉丁語的語言(當前是英語)應用語言分段規則(語法)。拉丁語基礎語言分割格式規則

目前我處於打破用戶輸入句子的階段。

e.g.: 

"I am working in language translation". "I have used Google MT API for this" 

在上面的例子中,我將通過句號(。),這是我上點突破一句正常的情況下,但也有n個字符的數量打破一句話(!?等等)上破句。

我有以下用於分割的SRX規則。

這裏我的問題是: -

1)是否有任何引用?我可以用它來解決我的語言分割規則。

2)或者有沒有關於語言分割的論壇?,這樣我可以有效地討論

請讓我知道是否有人知道這件事?

非常感謝。

+0

你的標籤沒有意​​義,我已經改變它(我認爲)更好一點......它是關於自然語言的,但是*編程*語言不可知的:) – 2010-05-12 06:18:13

+0

嘿謝謝你快速回復:) 是的...這是自然語言不是編程語言.. 我已經遵循http://www.lisa.org/fileadmin/standards/srx20.html#refTR29(SRX規則),但我沒有與這些傢伙互動......建議我的其他鏈接或論壇,以便我可以有效地進行交流......謝謝 – pravin 2010-05-12 06:24:01

+0

那麼英語主要是基於黑暗時代的撒克遜方言。語法是一種古老的德語,與一小撮中世紀法語相結合的獨特組合。拉丁文有很多詞彙,但除了奇怪的怪癖外(基準數據爲單數),幾乎沒有英文基於拉丁語的文法。 – 2010-05-12 06:51:35

回答

1

你可能想看看Reynar和Ratnaparkhi的論文A Maximum Entropy Approach to Identifying Sentence Boundaries(1997)。

摘要

我們提出了識別原始文本 句子邊界的可訓練的模式。給定 一個註釋了句子邊界的語料庫, 我們的模型學習將每個出現的 分類爲?,?和/或爲有效或無效的 句子邊界。訓練程序 不需要手工制定的規則,詞法, 詞性標記或特定於域的 信息。該模型因此可以輕鬆地訓練任何類型的英語,並且 應該可以在任何其他Romanalphabet 語言上進行訓練。性能可比 達到或優於 類似系統的性能,但我們強調重新訓練新域的簡單性 。

它們的結果語句分段器被稱爲MxTerminator並且可用here