我試圖通過斯坦福解析器從給定文本中提取所有名詞和形容詞。通過斯坦福解析器提取所有名詞,形容詞形式和文本
我的當前的嘗試在getChildrenAsList(使用模式匹配)的樹的對象定位像的東西:
(NN paper), (NN algorithm), (NN information), ...
,並將其保存在數組中。
輸入句子:
在本文中,我們提出,它可以提取任意文本語義信息的算法。
結果 - 字符串:
[(S (PP (IN In) (NP (DT this) (NN paper))) (NP (PRP we)) (VP (VBP present) (NP (NP (DT an) (NN algorithm)) (SBAR (WHNP (WDT that)) (S (VP (VBD extracts) (NP (JJ semantic) (NN information)) (PP (IN from) (NP (DT an) (ADJP (JJ arbitrary)) (NN text)))))))) (. .))]
我嘗試使用模式匹配,因爲我無法找到斯坦福解析器返回類似的名詞,例如所有詞類的方法。
有沒有更好的方法來提取這些詞類或解析器提供特定的方法?
public static void main(String[] args) {
String str = "In this paper we present an algorithm that extracts semantic information from an arbitrary text.";
LexicalizedParser lp = new LexicalizedParser("englishPCFG.ser.gz");
Tree parseS = (Tree) lp.apply(str);
System.out.println("tr.getChildrenAsList().toString()"+ parseS.getChildrenAsList().toString());
}
}