我正在嘗試使用OpenNLP對發票進行分類。根據它的描述,我將它分成兩類。我已經構建了一個包含20K描述的培訓文件,並將其標記爲正確的類。培訓OpenNLP文檔分類
訓練數據看起來像(第一列是一個代碼,即我的類中使用,而第二列是發票說明):
85171231 IPHONE 5S CINZA ESPACIAL 16GB (ME432BZA)
85171231 Galaxy S6 SM-G920I
85171231 motorola - MOTO G5 XT1672
00000000 MOTONETA ITALIKA AT110
00000000 CJ BOX UNIBOX MOLA 138X57X188 VINHO
從OpenNLP使用DocumentCategorizer,我達到98.5%正確性。但是,爲了提高效率,我選擇了錯誤的分類文檔並用它來擴展訓練數據。
例如,當我第一次運行它時,「MOTONETA ITALIKA AT110」被分類爲「85171231」。沒關係,因爲進入第一次運行時,「MOTONETA ITALIKA AT110」未被分類。所以,我教了分類器明確地把「MOTONETA ITALIKA AT110」標記爲「00000000」。
但是,再次運行OpenNLP,即使訓練數據包含「000000」的顯式映射,OpenNLP也堅持將其歸類爲「85171231」。
所以我的問題是:我在教OpenNLP賴特嗎?我如何提高效率?
,我正在使用的代碼是:
MarkableFileInputStreamFactory dataIn = new MarkableFileInputStreamFactory("data.train");
ObjectStream<String> lineStream = new PlainTextByLineStream(dataIn, StandardCharsets.UTF_8);
ObjectStream<DocumentSample> sampleStream = new DocumentSampleStream(lineStream);
TrainingParameters params = new TrainingParameters();
params.put(TrainingParameters.ITERATIONS_PARAM, "100");
params.put(TrainingParameters.CUTOFF_PARAM, "0");
DoccatModel model = DocumentCategorizerME.train("pt", sampleStream, params, new DoccatFactory());
DocumentCategorizer doccat = new DocumentCategorizerME(model);
double[] aProbs = doccat.categorize("MOTONETA ITALIKA AT110".replaceAll("[^A-Za-z0-9 ]", " ").split(" "));
doccat.getBestCategory(aProbs);