2013-03-19 87 views
2

我想索引文本文件。搜索了很多後,我瞭解了Apache tika。現在在我學習Apache tika的一些網站中,我瞭解到Apache tika將其文本轉換爲XML格式,然後將其發送到solr。但在轉換時只創建一個標籤示例 ....... 現在,我希望索引的文本文件是一個tomcat本地主機訪問文件。這個文件在GB中。我無法存儲它和單個索引。我希望每一行都有行號 ....... 因此,我可以輕鬆地檢索匹配行。如何使用apache solr索引文本文件

這可以在Apache Tika中完成嗎?

回答

3

Solr與Tika支持從多種文件格式中提取數據。
支持的文件格式的完整列表,可以發現@link

可以作爲輸入提供上述任何一種文件格式和提卡將能夠自動檢測文件格式,並從這些文件中提取文本並將其提供給Solr進行索引。

編輯: -
Tika不會將文本文件轉換爲XML,然後再將其轉到Solr。 Tika將按照定義的映射提取元數據和文件內容並填充Solr中的字段。

您必須將整個文件作爲輸入提供給solr,這會作爲單個文檔索引,或者您必須逐行讀取文件並將其作爲單獨文檔提供給Solr。
Solr和Tika不會爲你處理這件事。

+0

對不起,改變了問題。搜索後,我知道你有什麼建議,所以我已經修改了一個問題。你知道答案嗎? – 2013-03-19 11:24:41

+0

更新了答案。 – Jayendra 2013-03-19 13:02:07

+0

「*您必須將整個文件作爲輸入提供給solr *」 您可以使用如何執行此操作的示例更新您的問題嗎? – 2013-06-13 09:09:12

1

您可能想要查看DataImportHandler以將文件解析爲行或條目。對於已經擁有內部結構的東西來說,這比運行Tika更好。