5

在我看來,Parsey在正確標記問題和任何帶有「is」的句子中存在嚴重問題。Parsey McParseface在問題上錯誤地識別根


文字:奧巴馬來自夏威夷嗎?

GCloud令牌(正確):

  • 爲 - [根] VERB
  • 營房 - [NN] NOUN
  • 奧巴馬 - [nsubj] NOUN
  • 從 - [ADP] PREP
  • 夏威夷 - [pobj] NOUN

Parsey令牌(錯誤):

  • 爲 - [警察] VERB
  • 營房 - [nsubj] NOUN
  • 奧巴馬 - [根] NOUN
  • 從 - [ADP] PREP
  • 夏威夷 - [pobj]名詞

Parsey決定讓名詞(!)奧巴馬成爲根,這會弄亂一切。


文本:我的名字是菲利普

GCloud令牌(正確):

  • 我的[POSS] PRON
  • 名稱[nsubj] NOUN
  • 是[根] VERB
  • Philipp [attr] NOUN

ParseyTokens(不正確的):

  • 我的[POSS] PRON
  • 名稱[nsubj] NOUN
  • 是[COP] VERB
  • 菲利普[根] NOUN

parsey再次選擇NOUN作爲根,並與COP一起奮鬥。


任何想法,爲什麼發生這種情況,我該如何解決它?

感謝, 菲爾

+0

從來沒有使用過Tensorflow,但標題本身值得upvote ^^ –

回答

0

我有資格我的回答:我有限的Parsey McParseface的知識。但是,由於沒有其他人回答,我希望我能增加一些價值。

我認爲大多數機器學習模型的一個主要問題是缺乏可解釋性。這與你的第一個問題有關:「爲什麼會發生這種情況?」這很難說,因爲這個工具是建立在「黑盒子」模型上的,即神經網絡。鑑於strong claims made about Parsey,我會說這似乎是非常令人驚訝的,像'是'這樣的常見詞彙一直在欺騙它。你有可能犯了一些錯誤嗎?沒有代碼示例很難說。

我假設你沒有犯過錯,在這種情況下,我認爲你可以利用你的觀察結果來解決這個問題(或者減輕它),因爲'is'這個詞似乎把模型拋棄了。在這種情況下,您可以簡單地檢查相關句子中的單詞'is'並使用GCloud(或其他解析器)。方便地,一旦你同時使用了,你可以使用GCloud作爲Parsey似乎失敗的其他情況的後備,如果你將來找到它們的話。

至於改善基礎模型,如果您足夠關心,您可以使用original paper重新創建它,也許可以根據您的情況優化培訓。

1

關於第一個例子,看起來Parsey的訓練數據相當陳舊,甚至沒有提及任何「Barack」這個詞。 如果你將貝拉克奧巴馬換成比爾克林頓,你會得到一個正確的解析。

Input: Is Bill Clinton from Hawaii ? Parse: Is VBZ ROOT +-- Clinton NNP nsubj | +-- Bill NNP nn +-- from IN prep | +-- Hawaii NNP pobj +-- ? . punct

第二個例子是代替正確地根據斯坦福依賴關係解析(參照http://nlp.stanford.edu/software/dependencies_manual.pdf「系詞動詞的處理」)。

Input: My name is Philip Parse: Philip NNP ROOT +-- name NN nsubj | +-- My PRP$ poss +-- is VBZ cop

0

由於正確標記奧巴馬爲2個名詞,我不認爲它與名字不熟悉的問題。我認爲Parsey禁止使用「is」作爲根。

在理論依存語法中,名詞從來不是完整句子的根。然而,帕西卻不遵循理論;它非常喜歡將內容單詞變爲頭腦。我認爲它已經決定,當你說「X是Y」時,句子的頭部應該是「X」而不是「is」,因爲「is」不是一個提供信息的詞。

......除了比爾克林頓的例子,這可能證明我錯了!我還沒有讓Parsey在我自己的電腦上工作,所以我不確定。