2014-10-22 80 views
0

日安創建谷歌,像文檔搜索頁面

我已經徹底搜查互聯網(與本網站),但還沒有找到一個(完整的)答案,至今尚未能實現自己的解決方案。 如果看起來我錯過了已發佈在Stackoverflow上的解決方案;我提前道歉。

我的公司掃描所有收到的郵件。 這些由ABBYY Finereader進行OCR數據處理。 所有這些文檔駐留在數據中心的NAS中,並可通過WEBDAV連接進行訪問。我想要的是爲所有這些文件建立索引(讓我們現在只使用PDF),並讓它們可供搜索,並可通過谷歌搜索網站訪問,其中可以點擊結果在瀏覽器中打開相應的pdf文件以供查看/下載。

這是問題; 我已經設置了SOLR/Tika並且可以索引一個pdf文件,搜索它並找到結果。 索引掃描文檔保存到的整個文件夾的最佳方式是什麼? 理想情況下,所有這些都運行在Linux服務器上,這樣我就可以掛載這個目錄。

我該如何看這個目錄中的新文件,以便它們被自動編入索引?

如何將文件移動到根目錄(或刪除/重命名)中的(新)目錄並自動更新索引時跟蹤文件?

什麼是爲用戶創建前端的首選方式?我可以自定義Solr/browse,但我寧願使用Rails來構建站點(因爲我熟悉它),並且希望向查詢數據發送一個請求給Solr,並獲得一個響應/數組返回給用戶。

最後但並非最不重要; 如果有人對提供此功能的商業產品有很好的建議,我想聽聽它。我無意重新發明輪子,但是我的搜索並沒有讓我有太多的想法。

回答

0

你一次問太多問題。所以,你會得到一堆追逐的指針,希望對其他人也有用。

  1. 你不能「定製的Solr /瀏覽」 - Solr的是不安全的直接暴露給用戶的應用程序
  2. 您可以使用FileListEntityProcessor(與rootEntity = FALSE)拿起嵌套實體使用DataImportHandler(DIH)裏面的文件和TikaEntityProcessor來索引一堆文件。但是,這不會幫助您刪除已刪除的文件。也許你需要一個存根文件或類似的東西。
  3. ManifoldCF使用Solr的,它的文件系統適配器可能會更聰明比諦
  4. Lucidworks是使用Solr內商業產品,可能有文件系統適配器和大量的其他功能,你可以看看
  5. Cloudera是商業產品與大數據管道(其中包括文件注入)並使用Solr。重要的是,它也預先配置了Hue,這可能會給你至少一個版本的界面。