2013-05-13 50 views
0

我正在與Apache的Nutch和Solr工作來解析FLV和EPUB文件的內容,我的要求是要分析FLV和EPUB文件的內容,我使用下面的命令來解析文件無法使用Nutch的

bin/nutch crawl urls -solr http://localhost:8983/solr/ 

我已將文件url保存在nutch的urls文件夾中。上述命令正在工作,但當我試圖查看解析的內容使用solr與下面的命令它只是顯示文件的URL。

bin/nutch solrindex http://127.0.0.1:8983/solr/ crawl/crawldb -linkdb crawl/linkdb crawl/segments/* 

請建議我....

感謝

回答

0

你的第二個命令要插入您的爬網內容到SOLR索引。

您需要在SOLR中運行搜索以獲取已爬網內容。 類似的東西來:

http://127.0.0.1:8983/solr/select/?q=*%3A*&version=2.2&start=0&rows=10&indent=on 

你可以改變「內容」字段中schema.xml中存儲=「真」,再爬,再指數和發佈SOLR搜索的結果嗎?

+0

感謝您的回覆,我已經將內容提交到store = true,但是當我在太陽能搜索中獲得相同的結果時,如下所示:「www.epingsoft.com/epub/examples/AChristmasCarol.epub/AChristmasCarol AChristmasCarol AChristmasCarol www.epingsoft.com/epub/examples/AChristmasCarol.epub AChristmasCarol www.epingsoft.com/epub/examples/AChristmasCarol.epub「請澄清一件事是否可以使用nutch從flv文件中獲取文本?如果沒有,請給我建議任何其他工具.... – user2353439 2013-05-15 04:26:58

+0

在這種情況下,您將需要編寫自己的插件來提取和解析epub文件中的數據。恐懼的Tika語法分析器不這麼做。 – nimeshjm 2013-05-15 10:59:54