2011-01-13 54 views
4

我正在研究支持單個實例中的多個區域設置的國際化數據庫應用程序。當國際用戶對構建在數據庫之上的應用程序中的數據進行排序時,數據庫在理論上使用適合與用戶正在查看的數據相關聯的語言環境的排序規則對數據進行排序。L10N:特定於區域的排序的可信測試數據

我試圖找到滿足兩個條件的話有序列表:

  1. 排序順序是按照區域設置的排序規則
  2. 上市的話可以讓我鍛鍊大多數/所有的該區域的特定歸類規則

我無法找到這樣可信的測試數據。這樣的分類測試數據集目前是否可用,如果是的話,它們是什麼/在哪裏?

「words.en.txt」是包含美式英語文本的示例文本文件:

Andrew 
Brian 
Chris 
Zachary 

我打算加載的單詞列表到我的隨機順序數據庫,並檢查是否排序該列表符合原始輸入。

因爲我不流利的英語以外的任何語言,我不知道如何用法語創建樣本數據集類似於下面的示例一個(稱之爲「words.fr.txt」):

cote 
côte 
coté 
côté 

法國人傾向於從右至左排列變音符號。如果排序時使用的代碼點順序,很可能出來這樣的(這是一個不正確的排序):

cote 
coté 
côte 
côté 

謝謝你的幫助, 克里斯

+0

要特別指出你正在尋找什麼樣的數據? – 2011-01-13 19:14:56

回答

4

這裏是我的發現。

Unicode Common Locale Data Repository(CLDR)幾乎是國際文本排序的權威。我能夠找到符合ICU項目ICU Demonstration - Locale Explorer工具中CLDR中規則的幾個單詞列表。事實證明,ICU(Unicode的國際組件)使用CLDR規則來幫助解決常見的國際化問題。這是一個偉大的圖書館;一探究竟。

在某些情況下,通過直接對CLDR規則進行反向工程來構造一些無意義的術語非常有用。美國的搜索引擎不適合尋找我對這個測試感興趣的case/diacritic /其他細微差別的外國術語(回想起來,我想知道國際搜索引擎是否會更適合這項任務)。