2013-03-12 82 views
0

我剛剛開始使用Nutch 1.6工作。我執行我哪去了成功,直到在那裏我遇到了以下問題來了點初始爬行:Nutch術語中的術語「細分」究竟是什麼?

LinkDb:加段: 文件:在/ var/Apache的Nutch的/爬行/段/ 2013031234747 LinkDb:加入 段:file:/ var/apache-nutch/crawl/segments/2013031250939異常 in thread「main」org.apache.hadoop.mapred.InvalidInputException:輸入 路徑不存在: file:/ var/apache-nutch/crawl/segments/20130308114306/parse_data輸入 路徑不存在: file:/ var/apache-nutch/crawl/segments/20130312135244/parse_data at org.apache.hadoop.mapred.FileInputFormat。 listStatus(FileInputFormat.java:197) 在org.apache.hadoop.mapred.SequenceFileInputFormat.listStatus(SequenceFileInputFormat.java:40) 在org.apache.hadoop.mapred.FileInputFormat.getSplits(FileInputFormat.java:208) 在org.apache.hadoop.mapred.JobClient.writeOldSplits(JobClient.java:989) at org.apache.hadoop.mapred.JobClient.writeSplits(JobClient.java:981) at org.apache.hadoop.mapred.JobClient。 在org.apache.hadoop.mapred.JobClient $ 2.run(JobClient.java:897) 在org.apache.hadoop.mapred.JobClient $ 2.run(JobClient.java:850訪問$ 600(JobClient.java:174) ) 在java.security.AccessController.doPrivileged(本機方法) 在javax.security.auth.Subject.doAs(Subject.java:415) 一個t org.apache.hadoop.mapred.JobClient org.apache.hadoop.mapred.JobClient.submitJobInternal(JobClient.java:850) (org.apache.hadoop.mapred.JobClient)org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1121) .submitJob(JobClient.java:824) at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1261) at org.apache.nutch.crawl.LinkDb.invert(LinkDb.java:180) 在org.apache.nutch.crawl.LinkDb.invert(LinkDb.java:151) 在org.apache.nutch.crawl.Crawl.run(Crawl.java:143) 在org.apache.hadoop.util.ToolRunner .RUN(ToolRunner.java:65) 在org.apache.nutch.crawl.Crawl.main(Crawl.java:55)

我想了解nutch中究竟是「分段」的東西?在上面的錯誤開始時,它說「LinkdB:添加段」。它試圖做什麼?我們分割了什麼?

回答

1

段是分區[hadoop的輸入的分區]創建的,由地圖減少的nutch運行的作業,以開始從輸入設定的種子URL的提供給檢索器抓取爬行。

+0

感謝abhinav.Could還請解釋如何Nutch的決定如何多段創建? – sunskin 2013-03-16 18:22:08

相關問題