Nutch術語中的術語「細分」究竟是什麼？

我剛剛開始使用Nutch 1.6工作。我執行我哪去了成功，直到在那裏我遇到了以下問題來了點初始爬行：Nutch術語中的術語「細分」究竟是什麼？

LinkDb：加段：文件：在/ var/Apache的Nutch的/爬行/段/ 2013031234747 LinkDb：加入段：file：/ var/apache-nutch/crawl/segments/2013031250939異常 in thread「main」org.apache.hadoop.mapred.InvalidInputException：輸入路徑不存在： file：/ var/apache-nutch/crawl/segments/20130308114306/parse_data輸入路徑不存在： file：/ var/apache-nutch/crawl/segments/20130312135244/parse_data at org.apache.hadoop.mapred.FileInputFormat。 listStatus（FileInputFormat.java:197）在org.apache.hadoop.mapred.SequenceFileInputFormat.listStatus（SequenceFileInputFormat.java:40）在org.apache.hadoop.mapred.FileInputFormat.getSplits（FileInputFormat.java:208）在org.apache.hadoop.mapred.JobClient.writeOldSplits（JobClient.java:989） at org.apache.hadoop.mapred.JobClient.writeSplits（JobClient.java:981） at org.apache.hadoop.mapred.JobClient。在org.apache.hadoop.mapred.JobClient $ 2.run（JobClient.java:897）在org.apache.hadoop.mapred.JobClient $ 2.run（JobClient.java:850訪問$ 600（JobClient.java:174））在java.security.AccessController.doPrivileged（本機方法）在javax.security.auth.Subject.doAs（Subject.java:415）一個t org.apache.hadoop.mapred.JobClient org.apache.hadoop.mapred.JobClient.submitJobInternal（JobClient.java:850）（org.apache.hadoop.mapred.JobClient）org.apache.hadoop.security.UserGroupInformation.doAs（UserGroupInformation.java:1121） .submitJob（JobClient.java:824） at org.apache.hadoop.mapred.JobClient.runJob（JobClient.java:1261） at org.apache.nutch.crawl.LinkDb.invert（LinkDb.java:180）在org.apache.nutch.crawl.LinkDb.invert（LinkDb.java:151）在org.apache.nutch.crawl.Crawl.run（Crawl.java:143）在org.apache.hadoop.util.ToolRunner .RUN（ToolRunner.java:65）在org.apache.nutch.crawl.Crawl.main（Crawl.java:55）

我想了解nutch中究竟是「分段」的東西？在上面的錯誤開始時，它說「LinkdB：添加段」。它試圖做什麼？我們分割了什麼？

來源

2013-03-12 sunskin

段是分區[hadoop的輸入的分區]創建的，由地圖減少的nutch運行的作業，以開始從輸入設定的種子URL的提供給檢索器抓取爬行。

來源

2013-03-15 12:03:16 abhinav

感謝abhinav.Could還請解釋如何Nutch的決定如何多段創建？ – sunskin 2013-03-16 18:22:08

Nutch術語中的術語「細分」究竟是什麼？

回答

相關問題