2017-03-08 57 views
0

我是Nutch的新手,我想抓取網站。我正在使用Nutch 1.12,並且我盲目地遵循了提及的步驟here

我下載了apache-nutch-1.12-bin.zip,然後將其解壓縮。使用cygwin我試圖抓取我的第一個網站。我只是按照上面的步驟進行操作。

我創建了一個名爲urls的目錄,裏面創建了seed.txt,其中包含http://nutch.apache.org/

現在我想執行命令bin/nutch注入crawl/crawldb url但我得到下面的異常。

佐拉@ BNDA000000615 /cygdrive/c/Airbus/apache-nutch-1.12/bin $ ./nutch注射爬行/ crawldb網址 噴油器:開始於2017年3月8日14時31分17秒 注射器:crawlDb :crawl/crawldb Injector:urlDir:url Injector:將注入的url轉換爲抓取數據庫條目。 注入器:org.apache.hadoop.fs.FileAlreadyExistsException:父路徑不是目錄:在org.apache.hadoop.fs上的org.apache.hadoop.fs.RawLocalFileSystem.mkdirs(RawLocalFileSystem.java:409) 上爬行 .RawLocalFileSystem.mkdirs(RawLocalFileSystem.java:413) 在org.apache.hadoop.fs.ChecksumFileSystem.mkdirs(ChecksumFileSystem.java:584) 在org.apache.nutch.crawl.Injector.inject(Injector.java:350 ) at org.apache.nutch.crawl.Injector.run(Injector.java:467) at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:70) at org.apache.nutch.crawl .Injector.main(Injector.java:441)

您能否請某人幫忙解決此問題

+0

而不是cygwin,在Linux上試試吧?您可以使用Oracle VirtualBox在Windows上運行Ubuntu。 –

回答

0

我有同樣的問題。

您是否使用「-p」參數創建了url目錄?

當我這樣做時,問題就解決了。

祝你好運。