我想從圖像或掃描文檔中提取表格數據,並將標題字段映射到其特定值,大多數情況下是在保險單據中。我試圖通過將它們逐行提取然後使用它們在頁面上的位置來映射它們。我通過定義一個表的開始和結束的關鍵點來給表格邊界,但是它沒有給出正確的結果,因爲標題有時會有多行(我在php中實現了這個)。我也想知道我是否可以使用機器學習來實現相同的目標。從圖像或掃描文檔中提取表格數據(不是pdf)
對PDF文檔的我已經使用tabula-java這工作很適合我。是否也有類似的圖像類型的實現?
的文件將是相似類型的如在上述不同的服務提供商的但如此提取這種數據的一種通用方法將是非常有用的鏈接。
在上述我要像製作= YAMAHA,MODEL = FZ-S,CC = 153等
由於映射值的圖像。
它會始終是相同的PDF模板嗎? – Elia
不可以。根據服務提供商的不同,可能會有所不同。 –