0

我有大量的文檔(主要是pdf和doc)我想分類,所以我可以根據特定標籤對它們進行搜索。這些標籤可以是我自己的(我把標籤放到文檔中)或從文本中提取。使用標籤對文檔進行分類

我剛剛看到一篇與此相關的帖子(Classify data using Apache Mahout),但也許有更簡單的東西。

+0

關於自動[文檔分類](http://en.wikipedia.org/wiki/Document_classification),您不清楚您想要什麼。你想要有監督或無監督的文件分類嗎?或者,也許你想半監督文件分類? – 2011-04-05 15:34:19

+0

我想半監督......我想; D。是的,我想提供一些有關文件的信息。 – geekazoid 2011-04-05 15:39:41

回答

3

Mahout可能會爲您的問題矯枉過正 - 但您可以通過使用OpenNLP獲得相當快速,簡單的解決方案。

http://opennlp.sourceforge.net/api/index.html

具體而言,看opennlp.tools.doccat包。從本質上說,你必須通過手動標記每個你想要的類別的一小組(ish)項目。如果它們真的很明顯,那麼你可以用小樣本逃脫。

您可以使用DocumentCategorizerME.train()靜態函數來訓練文檔集合,其中每個文檔都需要一個類別標記和要在其上進行訓練的文本塊。然後,您可以使用受過訓練的模型初始化DocumentCategorizerME,並開始對所有其他文檔進行分類。

一旦你這樣做,你可以(我認爲)將模型寫入一個文件,所以你不必再次這樣做。

0

這個帖子在extracting keywords and classifying webpages是相關的,可能有幫助。在你的例子中,它聽起來像你可以使用標籤來代替關鍵字提取部分(儘管你可能想要結合使用兩者)。 Weka很容易使用,我肯定會推薦給它看看。

相關問題