2016-06-10 73 views
0

我必須自動檢測報紙的所有文本區域(歡迎新的想法)。檢測報紙文章區域(文本塊)

我需要的結果是許多TXT文件包含每一個文章。 看一看這個演示。

enter image description here

+2

我假設你在來這裏之前已經對這個主題進行了一些研究,並嘗試了一兩件事,對吧?你嘗試了什麼,結果如何? –

+0

是的是的,我沒有找到幫助我達到結果的東西......所有我發現的是c#:'( 所有我需要的是,我的應用程序檢測到有5個關鍵詞插入此頁面,他們......在將標題和內容文本保存到TXT文件後 – Algerowalid

+0

實現語言無關緊要:這是一個可以用任何語言處理的算法問題。要麼搜索網頁,要麼獲得ACM數字圖書館的會員資格 - 大部分論文都可以在其他地方免費獲得,但是在ACM DL中更容易找到。 –

回答

0

這個問題太寬泛了。

如果你想要一個正確的答案,那麼你需要問非常具體的問題,並告訴我們你已經嘗試過。我們甚至不知道你需要什麼樣的格式,所以除了猜測之外我們不能提供任何真正的幫助。


說了:

你可能想看看使用image recognition software

一個很好的API來看看是OpenCV的:http://opencv.org/

下面是關於如何使用OpenCV的與Java教程:http://docs.opencv.org/3.0-last-rst/doc/tutorials/introduction/desktop_java/java_dev_intro.html


而且這裏有兩個可以幫助你類似的疑問:

Finding location of rectangles in an image with OpenCV

How to recognize rectangles in this image?

+0

非常感謝你的旅遊回答,並對我的問題感到抱歉 我想要什麼要做的是: - 拍一個PDF文件(正好是報紙文件) - 應用程序會自動識別報紙文章。 - 獲取每篇文章並將其保存到XML文檔(這一點是最簡單的哈哈) 那麼我該如何使用任何庫來識別第一個,塊文本(報紙文章),第二個獲取文本和位置。 非常感謝您的鏈接,我現在正在嘗試他們。 – Algerowalid