我是新來的Python和NLP的世界。谷歌的Syntaxnet最近宣佈對我感興趣。但是我有一個周圍很多麻煩了解文檔的兩個syntaxnet和相關工具(NLTK等)SyntaxNet創建樹根到動詞
我的目標:給定的輸入如「威爾伯把球踢」我想提取根動詞(踢)和它與「球」有關的物體。
我偶然發現「spacy.io」和this visualization似乎封裝了我想要實現的內容:POS標記一個字符串,並將其加載到某種樹結構中,以便我可以從根動詞開始並遍歷句子。
我玩過syntaxnet/demo.sh,並在this thread中建議註釋掉最後幾行以獲得conll輸出。
然後我在Python腳本加載此輸入(kludged在一起我自己,可能不是正確的):
import nltk
from nltk.corpus import ConllCorpusReader
columntypes = ['ignore', 'words', 'ignore', 'ignore', 'pos']
corp = ConllCorpusReader('/Users/dgourlay/development/nlp','input.conll', columntypes)
我知道我有機會獲得corp.tagged_words(),但言語之間沒有任何關係。現在我卡住了!我如何將這個語料庫加載到樹型結構中?
任何幫助非常感謝!
對我來說,你似乎錯過了解析部分。一旦你佔據了你的數據,即標記原始文本,POS標籤並將其轉換爲conll格式,你需要將它傳遞給解析器(SyntaxNet)。然後,您可以在解析器輸出中執行任何類型的提取操作。 – Riyaz