2014-02-05 31 views
0

好吧,我計劃建立在我的企業內部網的本地搜索引擎,其搜索類似XLS,XLSX,DOC,DOCX,PDB等搜索文件的內容

文件的內容在互聯網,我想,經過搜索Luke Lucene可以用於此目的。我對嗎? Lucene可以集成到網站嗎?

我有大約500GB的文件可以處理這些許多文件?有其他選擇嗎?

我只知道C和CPP的基礎知識,我沒有任何關於此的知識。我是一名自學者,請向我推薦一本關於Lucene的好書。

回答

1

是的,Lucene可以用於這個。但有一些代碼,你需要自己編寫(如Lucene是隻是一個庫): - 爬行代碼 - 文本提取 - 建立一個搜索應用..

,所以你可能會更好看solr,即建立在Lucene之上,並有許多內置的功能,你可以使用:一個堅實的服務器,您可以使用任何語言和dih爲您的爬行需求,tika集成文本提取,其他許多事情

+0

你可以建議我關於so​​lr或任何在線教程的好書。 – samnaction

+0

現在有幾本書,http://lucene.apache.org/solr/books.html我自己我擁有Apache Solr 3企業級搜索服務器,但它現在可能有點過時了。 – Persimmonium