對法律文件圖片進行分類最合適的分類算法是什麼？

我在一個以上的國家有一套文件，例如（身份證，駕駛執照和護照等），所以我需要將它們分類在同一類別中，然後我可以對任何新文件進行分類 - 不屬於我的套餐它的類。對法律文件圖片進行分類最合適的分類算法是什麼？

文件可能旋轉或移位或兩者兼有。來自同一類的兩個文檔的文檔顏色可能不完全相同。

什麼是最好的算法呢？

2011-09-22 Mohamed Sakher Sawan

正如其他人所說，這不是一個真正的分類問題。另外，由於您的物品可能會旋轉，傾斜等，因此您應該對圖像執行某種對象檢測/功能分析。

我建議您查看perceptual hashing或Speeded Up Robust Features (SURF)（如果您處理大量的旋轉/傾斜，則更多後者）。也就是說，我會將圖像分解成不可識別的區域（例如，您將消除具有用戶信息的區域（例如，他們的照片），集中在具有大量匹配特徵點的區域。

使用在特定ID類別的所有實例中保持一致的區域，以便您的匹配分數更高，然後對所比較的所有部分進行彙總以執行分類。

來源

2011-09-22 16:31:04 casperOne

有幾十種如果不是數百種分類算法 - 基本上你在尋找的是聚類。

http://en.wikipedia.org/wiki/Cluster_analysis

爲了使這項工作，你將不得不分析文檔和熬下來的幾個關鍵數字。這不一定非常適合羣集工作。

因此，做一些標準化（旋轉所有文檔，使文本是水平的）可能是好的，但也許不是。例如，如果關鍵分類編號基於整體顏色 - 對於任何旋轉都是相同的。

來源

2011-09-22 16:09:39

但是類已知，正如我所知，使用聚類來確定類。 –

我應該從您認爲的文件中收集哪些主要特徵或關鍵號碼？ –

它與已知的類相似：只是測量已知和未知之間的距離。關鍵還是用參數來計算距離。這是非常具體的領域，所以很難提供建議。如果你不能旋轉，你需要選擇相同的東西，無論旋轉。如果你可以旋轉，效果會更好 - OCR（例如Tesseract）可以幫助你做到這一點（嘗試所有四次旋轉0,90,180,270） - 哪種方法能給你最真實的單詞是可能的。如果您知道高度與寬度的比例（檢查是否顛倒），您可能可以縮小範圍。 –

問題不在於選擇哪種分類算法，而是爲了理解分類問題中的所有相關隱藏維度。一旦你理解了所涉及的所有維度，就可以使用任何一種分類算法來實現你想要的。

來源

2011-09-22 16:14:39

你說得對，但你認爲主要的維度是什麼？我想直方圖，紋理，大小和其他一些功能。你怎麼看？ –

不幸的是，主要尺寸是問題空間的函數。我將從一套詳盡的維度開始（所有我能想到的），並使用一些監督算法進行訓練。然後，我將在輸入數據中引入隨機變化並測量性能差異。 –

我建議圖像處理食譜。這是一本很好的初學者指南。http://www.amazon.com/Image-Processing-Cookbook-processing-scientific/dp/1448691214 –

對法律文件圖片進行分類最合適的分類算法是什麼？

回答

相關問題