2017-03-09 69 views
0

我已經遞歸爬取一個網站,並收集所有的鏈接/子鏈接,即它提到的網址。現在我想它將所有html內容轉儲到elasticsearch。索引網址使用nutch注入網址內容

我正在經歷的Nutch tutorial,發現下面的方式來做到這一點:

2. Inject the URLs into the Crawldb 

     nutch inject seed/urls.txt 


3. Generate URLs to fetch 

    bin/nutch generate -topN 40 

4. Fetch the pages 

    bin/nutch fetch -all 

在做的,我得到以下錯誤:

$ ./nutch inject seed/urls.txt 
    Usage: Injector <crawldb> <url_dir> [-overwrite] [-update] 

在這裏,在urls.txt我有把所有的網頁鏈接分開新行。 我不知道如何提取所有數據並推送到ES使用nutch和無​​法找到任何參考鏈接要做,需要指針。

+0

檢查你需要指定'crawldb'路徑通常是'爬行/ crawldb'但實際上取決於名義注入命令的輸出你選擇了。 –

回答

0

該命令注入需要兩個參數。第一個是crawldb,這是Nutch在抓取過程中存儲其數據的位置。你通常使用的是crawl/crawldb,但你可以選擇一個不同的名字,以及@Jorge Luis在他的評論中指出的名字。第二個是url_dir,這是目錄的位置其中包含起始URL的文本文件位於該位置。在你的情況下,這將是seed

所以完整的命令,您可以運行是

./nutch inject crawl/crawldb seed