索引網址使用nutch注入網址內容

我已經遞歸爬取一個網站，並收集所有的鏈接/子鏈接，即它提到的網址。現在我想它將所有html內容轉儲到elasticsearch。索引網址使用nutch注入網址內容

我正在經歷的Nutch tutorial，發現下面的方式來做到這一點：

2. Inject the URLs into the Crawldb 

     nutch inject seed/urls.txt 


3. Generate URLs to fetch 

    bin/nutch generate -topN 40 

4. Fetch the pages 

    bin/nutch fetch -all

在做的，我得到以下錯誤：

$ ./nutch inject seed/urls.txt 
    Usage: Injector <crawldb> <url_dir> [-overwrite] [-update]

在這裏，在urls.txt我有把所有的網頁鏈接分開新行。我不知道如何提取所有數據並推送到ES使用nutch和無法找到任何參考鏈接要做，需要指針。

來源

2017-03-09 Anand

檢查你需要指定'crawldb'路徑通常是'爬行/ crawldb'但實際上取決於名義注入命令的輸出你選擇了。 –

該命令注入需要兩個參數。第一個是crawldb，這是Nutch在抓取過程中存儲其數據的位置。你通常使用的是crawl/crawldb，但你可以選擇一個不同的名字，以及@Jorge Luis在他的評論中指出的名字。第二個是url_dir，這是目錄的位置其中包含起始URL的文本文件位於該位置。在你的情況下，這將是seed。

所以完整的命令，您可以運行是

./nutch inject crawl/crawldb seed

來源

2017-03-14 06:32:04 SilverNak

索引網址使用nutch注入網址內容

回答

相關問題