2011-04-07 83 views
9

有人能告訴我MeCab的默認輸出嗎?什麼註解並沒有做的小額薪酬索償仲裁輸出和我在哪裏可以找到的形態分析什麼是MeCab輸出和標記集?

http://mecab.sourceforge.net/

任何人都可以破譯從仲裁處該輸出的標籤集?

<s> 
ブギス・ジャンクション ブギス・ジャンクション ブギス・ジャンクション 名詞-一般  
に ニ に 助詞-格助詞-一般  
は ハ は 助詞-係助詞  
最も モットモ 最も 副詞-一般  
買い カイ 買う 動詞-自立 五段・ワ行促音便 連用形 
物慣れ モノナレ 物慣れる 動詞-自立 一段 連用形 
し シ する 動詞-自立 サ変・スル 連用形 
た タ た 助動詞 特殊・タ 基本形 
人々 ヒトビト 人々 名詞-一般  
を ヲ を 助詞-格助詞-一般  
も モ も 助詞-係助詞  
魅了 ミリョウ 魅了 名詞-サ変接続  
する スル する 動詞-自立 サ変・スル 基本形 
品 シナ 品 名詞-一般  
揃え ソロエ 揃える 動詞-自立 一段 連用形 
が ガ が 助詞-格助詞-一般  
あり アリ ある 動詞-自立 五段・ラ行 連用形 
ます マス ます 助動詞 特殊・マス 基本形 
。 。 。 記號-句點  
</s> 
+0

任何人都可以解釋輸出?至少從外行的角度來看? – alvas 2011-04-08 06:13:06

回答

10

您示例中的輸出格式似乎是chasen2,它是在dicrc文件中定義的。 這將是:

; ChaSen (include spaces) 
node-format-chasen2 = %M\t%f[7]\t%f[6]\t%F-[0,1,2,3]\t%f[4]\t%f[5]\n 
unk-format-chasen2 = %M\t%m\t%m\t%F-[0,1,2,3]\t\t\n 
eos-format-chasen2 = EOS\n 

對於正常節點的格式,這將是:

1. surface value, including any whitespace 
2. \t 
3. reading 
4. \t 
5. root form 
6. \t 
7. part of speech 
8. part of speech, subtype 1 
9. part of speech, subtype 2 
10. part of speech, subtype 3 
11. \t 
12. conjugation 
13. \t 
14. inflection 
15. newline 

其中項目7到圖10是連字符分隔。

有關更多詳細信息,您應該看到mecab的出力フォーマット documentation

編輯:更新到MeCab輸出格式說明頁面的鏈接。

+0

謝謝buruzaemon-san。我的日語水平很低,所以我很難閱讀文檔。我試圖閱讀IPAdic 2.7.0手冊,我明白了一點點,我無法弄清楚輸出格式。再一次感謝你。 – alvas 2011-04-10 04:32:28

+1

我認爲鏈接(格式文檔)已過期(至少不適用於我),作者的github頁面位於https://taku910.github.io/mecab/#format和https://taku910.github.io /mecab/format.html;只是一個側面說明,對於文字到語音(以及做furigana)應用程序,我個人更喜歡使用'--output-format-type = yomi' – HidekiAI 2017-07-07 13:32:31

+0

感謝您讓我瞭解那個過時的鏈接,@HidekiAI – buruzaemon 2017-07-08 21:48:23