我有一個pretokenized句子的文件,其中一些語句是命令式的(隱式主語,動詞第一等)。沒有任何部分標記,斯坦福分析器錯誤地將第一個單詞(動詞)標記爲大多數(但不是全部)這些命令性句子的主語中的名詞。通過部分標記(我相當肯定我的工作正確 - 我編輯並重新編譯了LexicalizedParser,以確保相關的命令行選項得到識別,並最終在lexicalizedParser.java中的正確位置)對這些句子的第一個單詞(使用_VB),其行爲否與如果標籤不存在不同。強制斯坦福解析器接受未通過解析器詞典許可的POS標籤
按照lexparser package summary(看的方式約60%下降的頁面「上有解釋一些限制......」),這是因爲把POS標籤VB的一些這話實在是太怪異讓解析器相信。
如何讓解析器讀取並遵循所有標記(最好來自命令行)?更新詞典?
使用EnglishFactored.ser.gz而不是EnglishPCFG.ser.gz減輕了這個問題,但它並沒有消失。
有人在幾年前向stanford [parser-user]郵件列表發佈了a similar question,但我似乎無法找到本文的答案。
編輯: 使用解析器的另一個版本(從2010年8月20日),這個問題似乎沒有/////。
我的數據中包含下列詞語(出現在基本形式中,如下所示,如「數字1至10的行數」或「刪除」foo。「後面的」bar「的所有實例)解析器中最有問題的命令式動詞: '顯示,打印,刪除,排序,提取,拆分,編號,計數,轉換,插入,對齊,中心,替換,更改,反向,加入, strip' 除了一些值得注意的例外(編號,刪除,打印)外,這個列表中的單詞幾乎不會被接受爲我的數據中的動詞。 – iltrn 2011-06-10 17:00:10