我成功創建了一個情感分析管道,如下所示:https://gate.ac.uk/sale/talks/gate-course-may10/track-3/module-11-ml-adv/module-11-sentiment.pdf 但是現在我想用不同的語料庫:它是德語;我有兩個包含正面或負面特徵的德語短語的文件。我把它寫進一個.xml文件是這樣的:GATE情緒分析如何工作?
<?xml version='1.0' encoding='UTF-8' ?>
<GateDocument>
<GateDocumentFeatures>
<Feature>
<Name className="java.lang.String">gate.SourceURL</Name>
<Value className="java.lang.String">file:/C:/Users/user/Documents/text</Value>
</Feature>
<Feature>
<Name className="java.lang.String">MimeType</Name>
<Value className="java.lang.String">text/plain</Value>
</Feature>
</GateDocumentFeatures>
<TextWithNodes>
<Node id="0" />10:41 Uhr ' Ist aber ein schwacher Trost.
<Node id="47" />1969 das Problem der Entsorgung offiziell angesprochen.
<Node id="103" />
...
</TextWithNodes>
<AnnotationSet Name="Key">
<Annotation Id="0" Type="comment" StartNode="0" EndNode="47">
<Feature>
<Name className="java.lang.String">rating</Name>
<Value className="java.lang.Double">2.0</Value>
</Feature>
</Annotation>
...
</AnnotationSet>
</GateDocument>
但我不明白如何使用paum.xml:
1)在本例中,從本教程有一個字符串評級(例如「2_Star_Rating」)而不是Double,但我不知道paum.xml/pipeline是如何處理這個String-feature的 - 我怎麼能告訴我的管道我現在有一個Double值可以使用?
2)當我在應用程序模式下運行批量學習PR時:文本語料庫如何讓人喜歡?純文本是否正常?
在第一個試驗中,我使用了教程中的同一個paum.xml文件,並將我的評分從double(2.0)轉換爲Strings(「2_Star_Rating」) - 並且在訓練和應用模式中沒有錯誤發生 - 但是當我查看在我的文本文件(我在app.mode中運行我的管道)中,沒有設置註釋。
如果我使用String而不是double,只需將每個double轉換爲「pos」,「neg」或「neu」即可。所以問題(2)對我來說更重要。 – Munchkin 2014-10-01 10:42:14