誤差與Nutch的

2013-04-23 64 views 1 likes

我試圖抓取網站使用Nutch爬行，並得到這個錯誤：誤差與Nutch的

java.net.MalformedURLException: no protocol: 
    Exception in thread "main" java.io.IOException: Job failed! 
      at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1265) 
      at org.apache.nutch.crawl.Injector.inject(Injector.java:296) 
      at org.apache.nutch.crawl.Crawl.run(Crawl.java:127) 
      at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65) 
      at org.apache.nutch.crawl.Crawl.main(Crawl.java:55)

來源

2013-04-23 goodi

回答

檢查種子列表。運行噴油器作業時發生此錯誤。可能是由於你的種子列表。您的種子網址如下：http://www.example.com。您必須將協議添加爲「http //」。

來源

2013-04-27 23:56:34 cguzel

感謝您的回答，這是工作，但現在我得到這個錯誤：線程「主」的異常java.io.IOException：作業失敗！ at org.apache.hadoop.mapred.JobClient.runJob（JobClient.java:1265） at org.apache.nutch.crawl.Injector.inject（Injector.java:296） at org.apache.nutch.crawl。 Crawl.run（Crawl.java:127） at org.apache.hadoop.util.ToolRunner.run（ToolRunner.java:65） at org.apache.nutch.crawl.Crawl.main（Crawl.java:55）現在問題在哪裏？ – goodi 2013-04-28 07:38:10

你用什麼存儲（hbase，cassandra或mysql）？檢查你的配置。（如hbase-site.xml ...） – cguzel 2013-04-28 15:11:36

檢查Hadoop日誌。你可以看到更詳細的問題。 – cguzel 2013-04-28 15:14:18

相關問題

1. 誤差與mysqli的
2. 誤差與PostgreSQL的
3. 誤差與BackgroundWorker的
4. 誤差與蟒
5. 誤差與APACHE2.2
6. nutch eclipse的錯誤信息
7. Eutch中的Nutch錯誤
8. Nutch的路徑錯誤
9. 誤差與按鈕
10. 誤差與流動
11. 誤差與火力
12. 誤差與升壓
13. com.jcraft.jsch.ChannelSftp.throwStatusError誤差與AWS
14. 誤差404 pageNotFound與struts2的
15. 誤差在HBase的與ImportTsv
16. Matlab的誤差與nlinfit
17. Apache Nutch 2.3.1讀取錯誤
18. nutch 1.11錯誤：.... org.apache.hadoop.fs.FileStatus.isDirectory（）Z
19. 誤差與懸賞分
20. 打字稿誤差與Lodash
21. 誤差與angularjs指令
22. sqlsrv_query誤差與總記錄
23. 誤差與機器人
24. 誤差JsInteropt與GWT 2.8
25. 詛咒誤差與C++類
26. 誤差與濾波器
27. TS1005誤差Angular2 - 與設置
28. 歌廳誤差與字典
29. 誤差與nsmanagedobject方面
30. hdfstore誤差與大熊貓