來自Nutch的什麼罐子我需要寫我自己的Crawl.java

我想從Nutch寫我自己的版本的Crawl.java，我會做一些不同的東西。我不想使用Nutch源代碼。我只是想幹淨地導入幾個罐子，並開始使用我的應用程序。我應該如何提供conf/crawl-urlfilter.txt和其他所需的conf文件？來自Nutch的什麼罐子我需要寫我自己的Crawl.java

有人可以幫我嗎？謝謝

來源

2010-07-22 Nayn

一個簡單的方法是將您的代碼打包到jar中。請務必在開始抓取的類中添加一個主類。將該jar文件放入Nutch安裝的lib文件夾中。現在，您可以使用類似（假設你的路徑設置是否正確找到Nutch的命令）命令你的爬行：

nutch com.xyz.YourCrawlerMain

其中「com.xyz.YourCrawlerMain」代表你的主類，以啓動您的爬行。

這將啓動您的爬蟲正確設置的Nutch類路徑。

對於配置文件，只需在Nutch安裝的conf文件夾中直接更新它們即可。

UPDATE

我的工作類似的東西，我能夠做出從我的應用程序Nutch的工作，這些設置：設置CLASSPATH以包括Nutch的文件夾中（這樣它可以找到插件） Nutch/conf文件夾，幷包括來自nutch文件夾的Nutch/lib + nutch.jar中的所有jar。

但要小心，如果您的應用程序在Web容器中運行。我不得不弄糟類路徑使其工作...

來源

2010-07-22 15:02:25

Nutch是我的應用程序的外部。我不想用我的抓取命令來運行nutch。我不想寫一個完整的爬行器索引器。我只是想用個別的nutch組件來抓取一個特定的網站，並抓取我感興趣的內容。這種方式我只是有個別nutch組件和它的插件jar依賴。這編譯但以某種方式無法運行在日食與以下錯誤： java.lang.RuntimeException：在配置對象\t在org.apache.hadoop.util.ReflectionUtils.setJobConf（ReflectionUtils.java:93） – Nayn 2010-07-22 15:10:49

錯誤，請參閱我的更新 – 2010-07-22 19:43:51

嗨帕斯卡爾，對不起，再次問你，但我仍然無法得到它的工作。你有可能分享你的eclipse工作區（只是簡單的nutch爬行演示），這樣我就可以知道我失蹤的地方。我的郵件ID是nayanish [點]鉸鏈[在] gmail.com – Nayn 2010-08-19 10:57:51

來自Nutch的什麼罐子我需要寫我自己的Crawl.java

回答

相關問題