使用標籤對文檔進行分類

我有大量的文檔（主要是pdf和doc）我想分類，所以我可以根據特定標籤對它們進行搜索。這些標籤可以是我自己的（我把標籤放到文檔中）或從文本中提取。使用標籤對文檔進行分類

我剛剛看到一篇與此相關的帖子（Classify data using Apache Mahout），但也許有更簡單的東西。

2011-04-05 geekazoid

關於自動[文檔分類]（http://en.wikipedia.org/wiki/Document_classification），您不清楚您想要什麼。你想要有監督或無監督的文件分類嗎？或者，也許你想半監督文件分類？ – 2011-04-05 15:34:19

我想半監督......我想; D。是的，我想提供一些有關文件的信息。 – geekazoid 2011-04-05 15:39:41

Mahout可能會爲您的問題矯枉過正 - 但您可以通過使用OpenNLP獲得相當快速，簡單的解決方案。

具體而言，看opennlp.tools.doccat包。從本質上說，你必須通過手動標記每個你想要的類別的一小組（ish）項目。如果它們真的很明顯，那麼你可以用小樣本逃脫。

您可以使用DocumentCategorizerME.train（）靜態函數來訓練文檔集合，其中每個文檔都需要一個類別標記和要在其上進行訓練的文本塊。然後，您可以使用受過訓練的模型初始化DocumentCategorizerME，並開始對所有其他文檔進行分類。

一旦你這樣做，你可以（我認爲）將模型寫入一個文件，所以你不必再次這樣做。

2011-04-08 15:22:51 bwalenz

這個帖子在extracting keywords and classifying webpages是相關的，可能有幫助。在你的例子中，它聽起來像你可以使用標籤來代替關鍵字提取部分（儘管你可能想要結合使用兩者）。 Weka很容易使用，我肯定會推薦給它看看。

2012-06-04 23:03:18 Tyson

回答