2016-09-15 142 views
2

我想使用Solr來索引某些庫,它們代表fb2格式的圖書。 其實fb2只是xml,與xsd format類似。 但是,post.jar忽略* .fb2文件,我不明白如何在FB2文件值映射到索引字段,如:Solr:索引fb2文件

<book-title>some book</book-title> 

...到「書標題」字段中的索引。 我應該創建一個插件還是其他的東西?

回答

3

您應該看看Solr數據導入處理程序(DIH)。

https://cwiki.apache.org/confluence/display/solr/Uploading+Structured+Data+Store+Data+with+the+Data+Import+Handler

在Solr的實例文件夾你有一個RSS導入示例。如果您在RSS數據-config.xml文件看,你會看到他們如何使用XPathEntityProcessor映射從XML到Solr的領域,如:

下面是一些更多的信息:http://www.andornot.com/blog/post/Sample-Solr-DataImportHandler-for-XML-Files.aspx

我過去也編寫了Tika解析器來處理特定的文件格式。

https://lucidworks.com/blog/2010/06/18/extending-apache-tika-capabilities/

更多的靈活性,你可以用你喜歡的編程語言只是閱讀您的文件和使用API​​將數據發送到Solr。我們不得不爲最近的應用做這件事,因爲DIH對於我們想要實現的功能不夠靈活。