2011-03-05 83 views
2

我有.rtf格式的塞爾維亞語 - 英語單詞,我需要從該文檔中提取它並將它們放入某些數據結構中。 我知道使用數據庫,但我不知道它是否適合這種情況。例如,我有斜體字,不知道如何把它放入數據庫(也許把標籤?)。是否有其他數據結構用於存儲格式化文本(粗體和斜體)?字典的數據結構

+3

你能更專注於你的問題嗎?你想閱讀一個RTF文件嗎?你想把塞爾維亞語的單詞映射到英語(反之亦然)嗎?格式的真正影響是什麼?如果您只是想將塞爾維亞語映射爲英語單詞,則可以在內存中使用'Map'實現之一,如'java.util.HashMap'。如果你想讓這些東西持續下去,那麼使用數據庫(甚至像sqlite3這樣的東西)將是一種可行的方法。 – birryree 2011-03-05 01:19:49

+0

這裏是我的文件的示例: http://www.scribd.com/doc/50060017/multi 我需要從這個文檔中提取並將這些單詞保存到數據庫.. – 2011-03-05 01:40:49

回答

1

這取決於你在DB需要的粒度。您可以根據格式的含義定義一致的數據模型嗎?

class Entry { 
    String serbianWord; 
    String serbianPhonetic; 
    String serbianOtherElementOfDictionary; 
    String englishWord; 
    String englishPhonetic; 
    String englishOtherElementOfDictionary; 
} 

理想情況下,格式(視圖)和數據庫(模型)應該是分開的。

但是,如果這樣做是使問題過於複雜,那麼存儲標記數據是一個合理的選擇。

1

這取決於如果整個文本是加下劃線/斜體或只是一些部分。如果整個文本以下劃線/斜體顯示,則可以在數據庫表中添加兩列,如「is_bold」和「is_italic」。否則,我會建議某種標記(HTML標記或Markdown)。我專注於數據庫解決方案,因爲我假設你想永久存儲這本字典。

問候

西蒙