如何或在哪裏運行$ ./nutch注入抓取/ crawldb網址

我是Nutch的新手，我想抓取網站。我正在使用Nutch 1.12，並且我盲目地遵循了提及的步驟here

我下載了apache-nutch-1.12-bin.zip，然後將其解壓縮。使用cygwin我試圖抓取我的第一個網站。我只是按照上面的步驟進行操作。

我創建了一個名爲urls的目錄，裏面創建了seed.txt，其中包含http://nutch.apache.org/。

現在我想執行命令bin/nutch注入crawl/crawldb url但我得到下面的異常。

佐拉@ BNDA000000615 /cygdrive/c/Airbus/apache-nutch-1.12/bin $ ./nutch注射爬行/ crawldb網址噴油器：開始於2017年3月8日14時31分17秒注射器：crawlDb ：crawl/crawldb Injector：urlDir：url Injector：將注入的url轉換爲抓取數據庫條目。注入器：org.apache.hadoop.fs.FileAlreadyExistsException：父路徑不是目錄：在org.apache.hadoop.fs上的org.apache.hadoop.fs.RawLocalFileSystem.mkdirs（RawLocalFileSystem.java:409）上爬行 .RawLocalFileSystem.mkdirs（RawLocalFileSystem.java:413）在org.apache.hadoop.fs.ChecksumFileSystem.mkdirs（ChecksumFileSystem.java:584）在org.apache.nutch.crawl.Injector.inject（Injector.java:350 ） at org.apache.nutch.crawl.Injector.run（Injector.java:467） at org.apache.hadoop.util.ToolRunner.run（ToolRunner.java:70） at org.apache.nutch.crawl .Injector.main（Injector.java:441）

您能否請某人幫忙解決此問題

來源

2017-03-08 CHOLA

而不是cygwin，在Linux上試試吧？您可以使用Oracle VirtualBox在Windows上運行Ubuntu。 –

我有同樣的問題。

您是否使用「-p」參數創建了url目錄？

當我這樣做時，問題就解決了。

祝你好運。

來源

2017-03-10 03:38:46

如何或在哪裏運行$ ./nutch注入抓取/ crawldb網址

回答

相關問題