拉丁語基礎語言分割格式規則

我正在研究一種功能，即對基於拉丁語的語言（當前是英語）應用語言分段規則（語法）。拉丁語基礎語言分割格式規則

目前我處於打破用戶輸入句子的階段。

e.g.: 

"I am working in language translation". "I have used Google MT API for this"

在上面的例子中，我將通過句號（。），這是我上點突破一句正常的情況下，但也有n個字符的數量打破一句話（！？等等）上破句。

我有以下用於分割的SRX規則。

這裏我的問題是： -

1）是否有任何引用？我可以用它來解決我的語言分割規則。

2）或者有沒有關於語言分割的論壇？，這樣我可以有效地討論

請讓我知道是否有人知道這件事？

非常感謝。

來源

2010-05-12 pravin

你的標籤沒有意義，我已經改變它（我認爲）更好一點......它是關於自然語言的，但是*編程*語言不可知的:) – 2010-05-12 06:18:13

嘿謝謝你快速回復:) 是的...這是自然語言不是編程語言.. 我已經遵循http://www.lisa.org/fileadmin/standards/srx20.html#refTR29（SRX規則），但我沒有與這些傢伙互動......建議我的其他鏈接或論壇，以便我可以有效地進行交流......謝謝 – pravin 2010-05-12 06:24:01

那麼英語主要是基於黑暗時代的撒克遜方言。語法是一種古老的德語，與一小撮中世紀法語相結合的獨特組合。拉丁文有很多詞彙，但除了奇怪的怪癖外（基準數據爲單數），幾乎沒有英文基於拉丁語的文法。 – 2010-05-12 06:51:35

你可能想看看Reynar和Ratnaparkhi的論文A Maximum Entropy Approach to Identifying Sentence Boundaries（1997）。

摘要

我們提出了識別原始文本句子邊界的可訓練的模式。給定一個註釋了句子邊界的語料庫，我們的模型學習將每個出現的分類爲？，？和/或爲有效或無效的句子邊界。訓練程序不需要手工制定的規則，詞法，詞性標記或特定於域的信息。該模型因此可以輕鬆地訓練任何類型的英語，並且應該可以在任何其他Romanalphabet 語言上進行訓練。性能可比達到或優於類似系統的性能，但我們強調重新訓練新域的簡單性。

它們的結果語句分段器被稱爲MxTerminator並且可用here。

來源

2010-05-12 09:24:34 dmcer

似乎是文學的關於這個語言學期刊量好...

這是有關該問題的一個很好的報告，希望它可以幫助你 http://repository.upenn.edu/cgi/viewcontent.cgi?article=1068&context=ircs_reports

尼科

來源

2010-05-12 06:29:37 nico

拉丁語基礎語言分割格式規則

回答

相關問題