2013-05-14 44 views
2

我已經搜索,但沒有找到我想要的,它是:提取一種語言形式的wiktionary最好的方法是什麼?

提取所有意大利語單詞,詞源和詞類......包括複數形式的單詞(amico,amichi)和wiktionary 。我想將它作爲純文本(而不是blob)放入CSV(可能太大)或MySQL數據庫中。

我希望每個意大利語單詞的英文重要記錄。

mwdumper也不斷崩潰。

任何建議將受到歡迎!

回答

2

我創建了一個小型Java程序,它從en.wiktionary XML轉儲here中提取詞性(動詞,nound,adjective,adn等),它使用TSV,但可以很容易地進行調整。

+0

Jackopo,我試圖編譯它,並得到這個錯誤:POSfromDump.java:20:錯誤:類GeneraDatabasePOS是公共的,應在名爲GeneraDatabasePOS.java文件中聲明 公共類GeneraDatabasePOS { (抱歉,我從來沒有編譯java之前) – esponapule 2013-05-14 23:40:26

+0

您必須將其保存在一個名爲Class的文件中,即GeneraDatabasePOS.java。您還必須更改包含文件路徑的代碼行。 – Jacopofar 2013-05-15 07:43:52

+0

你也必須把它放到一個名爲「generazione」的文件夾中,並用'java generazione.GeneraDatabasePOS'運行它# – Jacopofar 2013-05-15 07:49:34

相關問題