2017-01-01 80 views
-1

我想在Eclipse中使用mallet對文檔(wsdl文件)進行預處理。我想要生成特徵向量並使用短槌和MaxEntropy執行分類。我是新的使用槌,任何人都可以在這方面指導我。使用Mallet和MaxEntropy分類

感謝

回答

1

如果你指的是Web服務描述語言,我不知道專爲那些文件的任何具體的工作流或軟件包。我懷疑你可能想要創建一組功能,將文本(來自Web服務描述)和更多「類別」功能(如URL或URL模式)相結合。

我會解決這個問題的方法是創建一個單獨的包,讀取WSDL文件並以Mallet預期的格式寫出一個文件。這個適配器可以用你最喜歡的任何語言編寫。它將讀取所有文件,爲每個文件獲取一個經過解析的XML樹,提取文本和某些其他功能,並以Mallet首選的製表符分隔的單行每格格式輸出一個文件。

+0

線程「main」中的異常java.lang.NoClassDefFoundError:org.apache.commons.logging.LogFactory at com.predic8.soamodel.AbstractParser.class $(AbstractParser.groovy)\t at com.predic8.soamodel.AbstractParser。 $ get $$ class $ org $ apache $ commons $ logging $ LogFactory(AbstractParser.groovy)\t at com.predic8.soamodel.AbstractParser。 (AbstractParser.groovy:25)at com.predic8.wsdl.WSDLParser。 (WSDLParser.groovy)at parsing.main(parsing.java:16) – sid

+0

感謝您的回答,現在即時通過使用Java eclipse中的membrae soa進行wsdl解析,但即時獲取上述異常, – sid

+0

感謝您的回答!這種方法,現在我想用分類器來測試我的數據。我正在使用命令,但它給出了錯誤。線程「main」中的異常java.lang.IllegalArgumentException:從文件C:\ mallet-2.0.8 \ training2.mallet加載分類器時出現問題:cc.mallet.types.InstanceList無法轉換爲cc.mallet.classify.Classifier cc.mallet.classify.tui.Text2Classify.main(Text2Classify.java:79) – sid