2016-04-25 36 views
0

當前我正在處理一個項目,並且正在使用來自MALLET API的CsvIterator創建一個InstanceList。但是,我不確定MALLET實例對象中的數據字段應該如何格式化。我試圖將從一行文本解析的數據寫入文件。在理解MALLET實例對象中的數據字段時遇到問題

我知道數據字段通常是InstanceList中的FeatureVector對象,但我只是不確定CsvIterator在尋找什麼。

謝謝。

回答

1

對於分類或主題建模,輸入文件中的「數據」字段應該看起來像原始文檔,其中空格替換換行符。

馬勒如何理解「數據」字段取決於您使用的管道。這些類定義了將字符串輸入轉換爲FeatureVector的規則。

Csv2Vectors類中實現的默認行爲例如根據正則表達式將字符串分爲標記,然後將每個標記字符串轉換爲數據字母表中的特徵。有許多管道對象用於許多常見的轉換,例如下套管和禁止刪除。

相關問題