2011-02-17 58 views
1

我想通過一種方式運行Nutch爬蟲,我可以通過一個包含所有依賴關係的JAR文件訪問其所有功能。什麼是將Nutch編譯成一個Jar文件(並運行它)的過程?

例如,

java -jar nutch-all-1.2.jar -crawl <other params> 

,並在後面的階段,用Hadoop調用它。

目前,做一個

java -jar nutch-1.2.jar 
對存在於錯誤的Nutch的目錄結果JAR文件

Failed to load Main-Class manifest attribute from 
nutch-1.2.jar 

我相信這是因爲這個特殊的JAR不包含清單XML文件或其他依賴JAR。爲了達到這個目的,建議將nutch構建到一個JAR中的最佳方法是什麼?

謝謝!

回答

1

我意識到要在命令行中以簡單的方式運行Nutch,可以使用nutch.job文件代替。語法是,

hadoop jar nutch-1.0.job org.apache.nutch.crawl.Crawl urls -dir crawl -depth 1 
相關問題