2013-02-25 58 views
16

爪哇 - opennlpopennlp分塊和postag結果

我是新來opennlp,我嘗試分析句子,並有後標記和塊的結果,但我不明白的值的意思。是否有任何表格可以解釋帖子標籤和塊結果值的完整意義?

Tokens: [My, name, is, Chris, corrale, and, I, live, in, Philadelphia, USA, .] 
Post Tags: [PRP$, NN, VBZ, NNP, NN, CC, PRP, VBP, IN, NNP, NNP, .] 
chunk Result: [B-NP, I-NP, B-VP, B-NP, I-NP, O, B-NP, B-VP, B-PP, B-NP, I-NP, O] 

回答

12

POS標籤來自Penn Treebank tagset。大塊是名詞短語(NP),動詞短語(VP)和介詞(PP)。 「B- ..」表示這樣的短語的開始,「I- ..」表示類似「內部」的意思,即短語在此繼續(參見OpenNLP docs)。

10

的S - >簡單陳述句,即不是由 (可能是空的)引入從屬 結合或疑問詞和不呈現主語 - 動詞 反轉即一個。

SBAR - >子句由一個(可能是空的)從屬連詞引入。

SBARQ - > wh-word或wh-phrase引入的直接問題。 間接問題和相關條款應包含在 SBAR中,而不是SBARQ。

SINV - >倒置陳述句,即主題 遵循緊張動詞或模態的句子。

SQ - >倒置的是/否問題,或wh-question的主要子句,後面跟着 SBARQ中的wh-短語。

ADJP - >形容詞短語。

ADVP - >副詞短語。

CONJP - >連詞短語。

FRAG - > Fragment。

INTJ - >感嘆詞。大致對應於詞性標籤 UH。

LST - >列表標記。包括周圍的標點符號。

NAC - >不是成分;用於顯示NP中的某些名詞前綴 修飾符的範圍。

NP - >名詞短語。

NX - >在某些複雜的NP中用來標記NP的頭部。 非常大致對應於N-bar

PP->介詞短語。

PRN - >括號。

PRT - >粒子。應標記爲RP的單詞的類別。

QP - >量詞短語(即複雜度量/量短語);用於 NP。

RRC - >減少的相關條款。與協調詞組不同,

VP - >動詞短語。

WHADJP - > Wh-形容詞短語。含有wh-副詞的形容詞短語,如 有多熱。

WHAVP - > Wh-副詞短語。引入一個NP差距的條款。可能爲空 (包含0補語) 或詞法,包含wh-副詞,如如何或爲什麼。

WHNP - > Wh-名詞短語。引入一個NP差距的條款。可能爲空 (包含0補充詞) 或詞法,包含一些wh-詞,例如,誰,哪本書,其中的女兒,其中哪一個,或者怎麼樣,都不少。

WHPP-> Wh-介詞短語。介詞短語包含wh-名詞短語 短語 (例如其中或由誰授權)引入PP空位或由WHNP包含。

X - >未知,不確定或不可拆分。 X通常用於括號 拼寫錯誤和括號 ...的結構。

信用:http://mail-archives.apache.org/mod_mbox/opennlp-users/201402.mbox/%[email protected].com%3E

2

請參考POSTag list得到標記的詳細信息。

像 「B-NP」 塊標記由兩個或三個部分:
第一部分

B - marks the beginning of a chunk 
I - marks the continuation of a chunk 
E - marks the end of a chunk 

作爲一個chunk,它可以僅是長的一個字(像「她」在上面的例子中),它可以同時是塊的開始和結束。

第二部分

NP - noun chunk 
VP - verb chunk 

更多的參考,你可以參考OpenNLP Documentation