2012-01-28 55 views
3
  • 有沒有辦法在上傳文檔時執行OCR?Php - 上傳文檔,docx,pdf - 提取所有內容

  • 我們可以索引整個文檔嗎?

  • 可以搜索引擎索引整個文件嗎?即使用戶需要付費查看完整文檔?

  • 是否可以將文檔顯示爲預覽,只有選定的摘錄可見,其餘部分模糊且文檔格式仍然可見?

我一直試圖找到簡單的解決方案,使用簡單的PHP函數或東西似乎不會像火箭科學來完成這些問題。但在我看來,我看到有人在談論ApachePOI和Solr Cell以及我不知道的所有這些服務器命令。對於最後一個問題,我只能弄清楚我們可以使用PHPGD並生成帶有模糊內容的圖像,但如果文檔中有格式化的文本,圖像和表格等,我不確定如何使其工作。

所以,如果有人有簡單的解決方案,或者甚至複雜的解決方案buts with EASY instructions,那麼這些都可以。就像「爲noobs提取php文件內容」,這將從a-b-c開始。

預先感謝您!

+2

這裏有太多可以涵蓋一個問題的方法。你應該爲每個單獨的部分提出一個單獨的問題。 – Polynomial 2012-01-28 22:17:58

+0

是否有符合所有需求的標牌解決方案?就像一個簡單的comtent提取技術,將完成這一切?除了最後一個課程問題,但這不是主要問題,可以忽略 – salmanhijazi 2012-01-28 22:19:46

+2

不會。你會很幸運找到一個能夠同時覆蓋多個這樣的庫的庫,特別是因爲你問的是多個庫文件格式。 – Polynomial 2012-01-28 22:20:15

回答

1

Zend_Search_Lucene包含一些代碼來讀取docx文件,該文件將在PHP中運行。

對於PDF和doc,您可以使用命令行工具來提取純文本內容,如catdoc或pdftotext。如果你四處搜索,你可以在那裏找到大多數文件格式的這種工具。它們通常由大多數分發包裝。

從原始文本格式,您可以將其提供給任何全文搜索引擎。

0
  • 有沒有辦法在上傳文件時執行OCR?

當然,OCR適用於任何圖像數據。 OCR組件確實存在,只需使用一個。

  • 我們可以索引整個文檔嗎?

我不能告訴你,如果「我們」可以,但我可以索引文件。您只需要一個文檔,一個索引和一個例程來索引文檔。

  • 可以搜索引擎索引整個文件嗎?即使用戶需要付費查看完整文檔?

這取決於文檔格式。如果文檔受到保護並且索引器無法完全訪問它,則無法將其索引到全部位置。另一方面,如果指數能夠規避保護,它可以將其索引,但在某些法律領域可能會有法律問題。從技術上講,這不應該是一個問題。

  • 可以在文檔與只有選擇摘錄可見,其餘的模糊與文檔仍然可見的格式顯示爲預覽?

爲什麼不呢?我的意思是,如果你有這樣的顯示例程這樣做,那麼交易是什麼?

如果您的問題是您不熟悉所使用的技術,我建議您與熟悉的人聯繫並向您解釋。對於某些任務組件應該存在,但是,你需要將它們結合在一起。您的問題涵蓋太多,以至於開箱即用解決方案。

0

多項式正確。你不會在一個地方找到這一切。即使是OCR也需要多個模塊才能正常工作,而且這些模塊都不會完全免費。如果你想要合理的OCR,那麼你將需要使用商業引擎。

您將需要一個Word DOC/DOCX TIFF轉換器以及一個PDF轉換爲TIFF轉換器,或者您需要購買類似ABBYY FineReader SDK的東西來執行OCR,這不會便宜,但一定會做得更好Tesseract OCR。

索引和搜索可能是使用ApachePOI和Solr Cell的簡單方法,但模糊預覽需要一些自定義編碼。

該項目將不容易或便宜。

+0

對於Word Doc/Docx to Tiff可以使用http://www.convertapi.com。請注意@Hakre。 – Tomas 2012-01-31 19:55:22