2011-03-07 66 views
3

everyone。 我使用Baum-Welch算法來訓練pos tagger,它完全採用無監督的方式。 問題出在這裏: 當我得到標籤結果時,我只能得到一個數字序列。 我不知道哪個標籤代表VV,NN,DT。 我該如何解決這個問題?用於pos tagger的Baum-Welch算法

+1

你在標註什麼語言? – dmcer 2011-03-08 04:12:52

+1

你應該得到每個單詞的概率,然後你選擇一個概率最高的單詞。 – ealdent 2011-03-08 15:26:26

+0

但是我不知道哪個標籤代表哪個pos標籤。我只得到1 2 3 5 2 3 – David 2011-03-09 11:24:41

回答

4

一般來說,沒有辦法做到這一點。 Baum-Welch將找到具有相似分佈的詞類使用類,但沒有特別的理由可以假設這些類將以任何直接的方式映射到任何特定語言理論所提出的類別。因此,無監督的POS標籤主要用於你關心單詞或短語的等價類但不關於被分配的特定標籤的應用。

如果你真的需要人類可讀的標籤,但是(例如,在開發過程中,爲了評估你得到的結果是否是遠程合理的),我會手工標記幾十個句子。然後,您可以將您的B-W導出的標註器應用於標記爲小型語料庫的標籤,以誘導類編號和POS標籤之間的映射。

+0

在我看來,無監督的方式似乎不是一個很好的選擇來創建一個有用的pos標記。謝謝你的解釋!! – David 2011-03-12 13:00:04