0

我想執行的文件(txt文件,.PDF,.JPEG,.IMG等)的二元分類分爲兩類:可打印和非打印。本質上,我們學校爲俱樂部提供免費打印服務,但現實情況是,許多俱樂部濫用免費打印並最終打印他們的作業,論文等,這些打印成本高達數千美元的墨水和紙張。因此,我們希望採取一些無監督的方法,通過確定文件是否具有與俱樂部相關的高概率(例如生物物理論文,沒有生物物理學俱樂部!)來幫助限制這一點。查找功能,可打印或不打印

所以這是一個非常簡單的二元分類問題。我不是在尋找低層次的實現細節或者我應該使用哪種ML算法,而是我應該如何發現相關的功能,然後才能進行培訓等。

我的第一個想法是收集所有學生在圖書館打印的文件。這個想法是,如果你有真正的俱樂部印刷,你會在俱樂部印刷中心免費做,而不是在圖書館付錢。這將是一個龐大的數據集,假設在庫上打印的每個文檔都被分配了不可打印/俱樂部材料類別。不幸的是,由於隱私問題,學校非常自由並且反對允許這樣做,因此如果沒有法律風險,這不是一種真正的選擇。

類似想法的辦法是收集到綁定的課程/學校的工作,例如,文檔課程大綱,在線可用課程文件(家庭作業,論文等),並對其進行特徵提取/選擇。假設是學生會濫用印刷來普遍印刷與其學習相關的材料。

雖然.PDF和.txt基於文檔這種方式應該有合理的表現,我在研究如何基於圖像文件進行分類,除了可能使用文檔和其他元數據的標題損失。一個聰明的違規者可以簡單地將他們所有的文本文件轉換爲圖像格式來繞過這個系統。然而,這超出了這個問題的範圍,應該保存以備將來的問題/研究。目前範圍僅僅是基於文本的文檔。

注意,有做類似的題目前面的問題,但我是非常具體的,我認爲它可能帶來的東西像電影審查分級可能沒有面臨挑戰。

回答

0

我只想留下評論,但它結束的方式比我想象的要長。

雖然這是一個有趣的問題,但我不確定ML會爲您提供您所需的容易。

首先你的分類問題是類型A vs the WorldA沒有嚴格的界定。除非你確切地知道俱樂部打印什麼樣的東西,否則你不能真正地說新材料屬於該類別或不屬於該類別。

當你需要組裝足夠大的訓練集以覆蓋任何可以或不能打印的東西時,這將證明特別困難。這樣的任務將是非常乏味的,正如你所說的,你不可能獲得俱樂部通常打印的東西,所以充其量,你的訓練集中會出現很大的班級失衡。

因爲我們的目標是讓系統自動化(無論如何,如果存在人際交互,檢查將要打印的內容比製作ML算法更快,以提供人類無論如何都必須進行調查的分數)假陽性和假陰性的數量也會有問題。有些俱樂部將無法打印他們有權使用的東西。

正如你所說,通過分類​​和Not Course Material可以大大簡化問題。爲此,我將着眼於BoW,因爲在論文或課程材料中某些詞語比其他詞語更爲現實(遠程技術上的一切)。單詞的數量以及文件的整體大小看起來似乎是明智的事情。結構通常也是特別的:提取這樣的東西可能是一個好主意:「少於x個單詞的行數」,「每頁行數」,「圖片數量」(如果這是你可以從中提取的東西文件),...

對於圖片要檢查的主要事情是,如果這是一個掃描的東西(通常他們會掃描和打印課程相關的東西我猜),因爲該圖像的格式已經是很好的指示,但我沒有看到其他特別「與課程相關」的東西。所以對於我來說,如果你不能準確地定義你的兩個類中的一個,不要去分類或將問題減少到你可以真正定義的東西(課程相關的東西)。

0

如果您能夠編輯學生不被允許打印的「黑名單」文檔,則可以實施多層拒絕機制。

我建議這3個層次:

  1. 比較他們想與黑名單上的文件的所有MD5的數據庫來打印文件的MD5。
  2. 如果1)通過,比較重複1)但在頁面級別,而不是在文檔級別(也許他們只想打印幾頁而不是整個文檔)。
  3. 如果2)通過,您可以使用圖像相似性方法(如SSIM)將他們想要打印的頁面與黑名單文檔文檔的頁面進行比較。如果您在他們想要打印的頁面和其中一個黑名單項目之間打印得分較高,並相應地更新您的md5數據庫。
  4. 如果3)通過:print!

約SSIM的幾句話:這種方法是相當穩健的噪音,所以即使誰補充某種niose到圖像智能學生將被抓到 但是:

  • 你必須找到從頁面和文檔數據庫中提取感興趣區域(ROI)的正確方法(如果兩個ROI位於頁面的兩個不同區域,SSIM將爲負)
  • SSIM可能會很慢!這裏需要一個C實現。
  • 我認爲SSIM不是旋轉不變的,因此如果他們顛倒打印頁面(除非你有一個聰明的方法來旋轉頁面),檢查將失敗。