2014-10-01 75 views
0

我成功創建了一個情感分析管道,如下所示:https://gate.ac.uk/sale/talks/gate-course-may10/track-3/module-11-ml-adv/module-11-sentiment.pdf 但是現在我想用不同的語料庫:它是德語;我有兩個包含正面或負面特徵的德語短語的文件。我把它寫進一個.xml文件是這樣的:GATE情緒分析如何工作?

<?xml version='1.0' encoding='UTF-8' ?> 
<GateDocument> 
<GateDocumentFeatures> 
<Feature> 
    <Name className="java.lang.String">gate.SourceURL</Name> 
    <Value className="java.lang.String">file:/C:/Users/user/Documents/text</Value> 
</Feature> 
<Feature> 
    <Name className="java.lang.String">MimeType</Name> 
    <Value className="java.lang.String">text/plain</Value> 
</Feature> 
</GateDocumentFeatures> 

<TextWithNodes> 
<Node id="0" />10:41 Uhr &apos; Ist aber ein schwacher Trost. 
<Node id="47" />1969 das Problem der Entsorgung offiziell angesprochen. 
<Node id="103" /> 
... 
</TextWithNodes> 

<AnnotationSet Name="Key"> 
<Annotation Id="0" Type="comment" StartNode="0" EndNode="47"> 
<Feature> 
    <Name className="java.lang.String">rating</Name> 
    <Value className="java.lang.Double">2.0</Value> 
</Feature> 
</Annotation> 
... 
</AnnotationSet> 
</GateDocument> 

但我不明白如何使用paum.xml:

1)在本例中,從本教程有一個字符串評級(例如「2_Star_Rating」)而不是Double,但我不知道paum.xml/pipeline是如何處理這個String-feature的 - 我怎麼能告訴我的管道我現在有一個Double值可以使用?

2)當我在應用程序模式下運行批量學習PR時:文本語料庫如何讓人喜歡?純文本是否正常?

在第一個試驗中,我使用了教程中的同一個paum.xml文件,並將我的評分從double(2.0)轉換爲Strings(「2_Star_Rating」) - 並且在訓練和應用模式中沒有錯誤發生 - 但是當我查看在我的文本文件(我在app.mode中運行我的管道)中,沒有設置註釋。

+0

如果我使用String而不是double,只需將每個double轉換爲「pos」,「neg」或「neu」即可。所以問題(2)對我來說更重要。 – Munchkin 2014-10-01 10:42:14

回答

0

最後我發現了什麼GATE期待: 給定的文件(須分析)必須是這樣的:

<?xml version='1.0' encoding='UTF-8' ?> 
<GateDocument> 
<GateDocumentFeatures> 
<Feature> 
    <Name className="java.lang.String">gate.SourceURL</Name> 
    <Value className="java.lang.String">file:/C:/Users/user/Documents/text</Value> 
</Feature> 
<Feature> 
    <Name className="java.lang.String">MimeType</Name> 
    <Value className="java.lang.String">text/html</Value> 
</Feature> 
</GateDocumentFeatures> 
<TextWithNodes> 
<Node id="0" />sentence1 
<Node id="9" /> 
... 
</TextWithNodes> 

<AnnotationSet Name="Key"> 
<Annotation Id="1" Type="comment" StartNode="0" EndNode="9"> 
</Annotation> 
... 
</AnnotationSet> 
</GateDocument> 
+0

好吧,也可以(也更容易)使用純文本並將JAPE傳感器添加到向文本添加annotationSet的管道中(在這種情況下:將註釋命名爲「comment」並將outputASname設置爲「Key」) – Munchkin 2014-10-01 14:20:19

1

爲什麼不使用一個簡單的XML,如:

這與opinion1

這個註釋1文本與opinion2

一個註釋2文本它可以是一個註釋每個文件或文件無線在一個文件中有很多評論。

然後,您可以使用AnnotationSet Transfer PR,並在語料庫填充後將「原始標記」中的註釋複製到默認設置。