像文檔搜索頁面

我已經徹底搜查互聯網（與本網站），但還沒有找到一個（完整的）答案，至今尚未能實現自己的解決方案。如果看起來我錯過了已發佈在Stackoverflow上的解決方案;我提前道歉。

我的公司掃描所有收到的郵件。這些由ABBYY Finereader進行OCR數據處理。所有這些文檔駐留在數據中心的NAS中，並可通過WEBDAV連接進行訪問。我想要的是爲所有這些文件建立索引（讓我們現在只使用PDF），並讓它們可供搜索，並可通過谷歌搜索網站訪問，其中可以點擊結果在瀏覽器中打開相應的pdf文件以供查看/下載。

這是問題; 我已經設置了SOLR/Tika並且可以索引一個pdf文件，搜索它並找到結果。索引掃描文檔保存到的整個文件夾的最佳方式是什麼？理想情況下，所有這些都運行在Linux服務器上，這樣我就可以掛載這個目錄。

我該如何看這個目錄中的新文件，以便它們被自動編入索引？

如何將文件移動到根目錄（或刪除/重命名）中的（新）目錄並自動更新索引時跟蹤文件？

什麼是爲用戶創建前端的首選方式？我可以自定義Solr/browse，但我寧願使用Rails來構建站點（因爲我熟悉它），並且希望向查詢數據發送一個請求給Solr，並獲得一個響應/數組返回給用戶。

最後但並非最不重要; 如果有人對提供此功能的商業產品有很好的建議，我想聽聽它。我無意重新發明輪子，但是我的搜索並沒有讓我有太多的想法。

來源

2014-10-22 Maarten van Rijn

你一次問太多問題。所以，你會得到一堆追逐的指針，希望對其他人也有用。

你不能「定製的Solr /瀏覽」 - Solr的是不安全的直接暴露給用戶的應用程序
您可以使用FileListEntityProcessor（與rootEntity = FALSE）拿起嵌套實體使用DataImportHandler（DIH）裏面的文件和TikaEntityProcessor來索引一堆文件。但是，這不會幫助您刪除已刪除的文件。也許你需要一個存根文件或類似的東西。
ManifoldCF使用Solr的，它的文件系統適配器可能會更聰明比諦
Lucidworks是使用Solr內商業產品，可能有文件系統適配器和大量的其他功能，你可以看看
Cloudera是商業產品與大數據管道（其中包括文件注入）並使用Solr。重要的是，它也預先配置了Hue，這可能會給你至少一個版本的界面。

來源

2014-10-22 20:23:59

像文檔搜索頁面

回答

相關問題