無法使用Nutch的

我正在與Apache的Nutch和Solr工作來解析FLV和EPUB文件的內容，我的要求是要分析FLV和EPUB文件的內容，我使用下面的命令來解析文件無法使用Nutch的

bin/nutch crawl urls -solr http://localhost:8983/solr/

我已將文件url保存在nutch的urls文件夾中。上述命令正在工作，但當我試圖查看解析的內容使用solr與下面的命令它只是顯示文件的URL。

bin/nutch solrindex http://127.0.0.1:8983/solr/ crawl/crawldb -linkdb crawl/linkdb crawl/segments/*

請建議我....

感謝

來源

2013-05-13 user2353439

你的第二個命令要插入您的爬網內容到SOLR索引。

您需要在SOLR中運行搜索以獲取已爬網內容。類似的東西來：

http://127.0.0.1:8983/solr/select/?q=*%3A*&version=2.2&start=0&rows=10&indent=on

你可以改變「內容」字段中schema.xml中存儲=「真」，再爬，再指數和發佈SOLR搜索的結果嗎？

來源

2013-05-14 19:47:05 nimeshjm

感謝您的回覆，我已經將內容提交到store = true，但是當我在太陽能搜索中獲得相同的結果時，如下所示：「www.epingsoft.com/epub/examples/AChristmasCarol.epub/AChristmasCarol AChristmasCarol AChristmasCarol www.epingsoft.com/epub/examples/AChristmasCarol.epub AChristmasCarol www.epingsoft.com/epub/examples/AChristmasCarol.epub「請澄清一件事是否可以使用nutch從flv文件中獲取文本？如果沒有，請給我建議任何其他工具.... – user2353439 2013-05-15 04:26:58

在這種情況下，您將需要編寫自己的插件來提取和解析epub文件中的數據。恐懼的Tika語法分析器不這麼做。 – nimeshjm 2013-05-15 10:59:54

無法使用Nutch的

回答

相關問題