我正在研究一種功能,即對基於拉丁語的語言(當前是英語)應用語言分段規則(語法)。拉丁語基礎語言分割格式規則
目前我處於打破用戶輸入句子的階段。
e.g.:
"I am working in language translation". "I have used Google MT API for this"
在上面的例子中,我將通過句號(。),這是我上點突破一句正常的情況下,但也有n個字符的數量打破一句話(!?等等)上破句。
我有以下用於分割的SRX規則。
這裏我的問題是: -
1)是否有任何引用?我可以用它來解決我的語言分割規則。
2)或者有沒有關於語言分割的論壇?,這樣我可以有效地討論
請讓我知道是否有人知道這件事?
非常感謝。
你的標籤沒有意義,我已經改變它(我認爲)更好一點......它是關於自然語言的,但是*編程*語言不可知的:) – 2010-05-12 06:18:13
嘿謝謝你快速回復:) 是的...這是自然語言不是編程語言.. 我已經遵循http://www.lisa.org/fileadmin/standards/srx20.html#refTR29(SRX規則),但我沒有與這些傢伙互動......建議我的其他鏈接或論壇,以便我可以有效地進行交流......謝謝 – pravin 2010-05-12 06:24:01
那麼英語主要是基於黑暗時代的撒克遜方言。語法是一種古老的德語,與一小撮中世紀法語相結合的獨特組合。拉丁文有很多詞彙,但除了奇怪的怪癖外(基準數據爲單數),幾乎沒有英文基於拉丁語的文法。 – 2010-05-12 06:51:35