2013-05-13 79 views
0

我使用ocr客戶端tesseract在hocr文件中生成ocr文本和位置數據。我希望頂部從圖像中創建一個pdf,並在其中嵌入tesseract的不可見文本層。我無法弄清楚如何做到這一點。產生沒有文本數據的概率密度函數爲方便:如何在iOS中生成包含嵌入式hocr數據的PDF?

NSMutableData *pdfFile = [[NSMutableData alloc] init]; 
UIImage *image = [UIImage imageWithCGImage:[self.sourceImageArray[0] CGImage]]; 
CGRect rect; 
rect = CGRectMake(0, 0, image.size.height ,image.size.width); 
UIGraphicsBeginPDFContextToData(pdfFile, CGRectZero, nil); 
for (int i = 0; i < [self.sourceImageArray count] ; i++){ 
     UIGraphicsBeginPDFPageWithInfo(rect, nil); 
     UIImage *contextImage = self.sourceImageArray[i]; 
     [contextImage drawInRect:rect]; 
    } 
UIGraphicsEndPDFContext(); 
NSArray *paths = NSSearchPathForDirectoriesInDomains(NSDocumentDirectory,            NSUserDomainMask, YES); 
NSString *documentsDirectory = [paths objectAtIndex:0]; 
NSString* path = [documentsDirectory stringByAppendingPathComponent:@"multipage.pdf"]; 
NSData* data = pdfFile; 
[data writeToFile:path atomically:YES]; 

在PDF源代碼,不可見文本可使用文本呈現模式3(「既不填充也不筆劃字形形狀」)被寫入。這就是OCR如何將文本插入到基本上僅包含掃描圖像的PDF頁面中。

所以問題是我怎樣才能將文本呈現爲隱形模式下的石英pdf 3.任何幫助將非常感激!

回答

0

使用渲染模式3.您不能渲染文本你可以做的就是在頁面上畫普通的文本,然後繪製圖像。這些圖像將掩蓋文字,並且不可見。對於文本搜索操作,渲染模式0和3之間沒有區別。

相關問題