2010-09-15 61 views
1

我正在爲我的句子拆分器應用程序尋找測試文件,我希望該文件可以涵蓋儘可能多的情況。句子拆分器測試文件

謝謝!

+0

你的課程應該如何拆分,以及在什麼條件下? – sum1stolemyname 2010-09-15 11:36:04

+0

該語言是英語。該算法基於大寫/小寫,標點符號或語言語法分割文本。這是一個複雜的算法,所以我想盡可能多地測試它。一個非常簡單的例子是「約翰博士說他的職員身份證號碼不是3.1415」。應該在一個句子中,但http://stackoverflow.com/questions/1936388/what-is-a-regular-expression-for-parsing-out-individual-句子應該被分成6個句子。 – user200340 2010-09-15 11:47:37

回答

6

閱讀有關Lingua::Sentence的文檔。它命名它使用的語料庫,以及相關的句子拆分模塊。仔細閱讀測試文件。

+0

謝謝!很好的資源。 – user200340 2010-09-15 12:24:52