2013-04-23 64 views
1

我試圖抓取網站使用Nutch爬行,並得到這個錯誤:誤差與Nutch的

java.net.MalformedURLException: no protocol: 
    Exception in thread "main" java.io.IOException: Job failed! 
      at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1265) 
      at org.apache.nutch.crawl.Injector.inject(Injector.java:296) 
      at org.apache.nutch.crawl.Crawl.run(Crawl.java:127) 
      at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65) 
      at org.apache.nutch.crawl.Crawl.main(Crawl.java:55) 

回答

0

檢查種子列表。運行噴油器作業時發生此錯誤。可能是由於你的種子列表。您的種子網址如下:http://www.example.com。您必須將協議添加爲「http //」。

+0

感謝您的回答,這是工作,但現在我得到這個錯誤:線程「主」的異常java.io.IOException:作業失敗! at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1265) at org.apache.nutch.crawl.Injector.inject(Injector.java:296) at org.apache.nutch.crawl。 Crawl.run(Crawl.java:127) at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65) at org.apache.nutch.crawl.Crawl.main(Crawl.java:55) 現在問題在哪裏? – goodi 2013-04-28 07:38:10

+0

你用什麼存儲(hbase,cassandra或mysql)?檢查你的配置。 (如hbase-site.xml ...) – cguzel 2013-04-28 15:11:36

+1

檢查Hadoop日誌。你可以看到更詳細的問題。 – cguzel 2013-04-28 15:14:18