2010-07-22 67 views
1

我想從Nutch寫我自己的版本的Crawl.java,我會做一些不同的東西。我不想使用Nutch源代碼。我只是想幹淨地導入幾個罐子,並開始使用我的應用程序。我應該如何提供conf/crawl-urlfilter.txt和其他所需的conf文件?來自Nutch的什麼罐子我需要寫我自己的Crawl.java

有人可以幫我嗎? 謝謝

回答

1

一個簡單的方法是將您的代碼打包到jar中。請務必在開始抓取的類中添加一個主類。將該jar文件放入Nutch安裝的lib文件夾中。現在,您可以使用類似(假設你的路徑設置是否正確找到Nutch的命令)命令你的爬行:

nutch com.xyz.YourCrawlerMain 

其中「com.xyz.YourCrawlerMain」代表你的主類,以啓動您的爬行。

這將啓動您的爬蟲正確設置的Nutch類路徑。

對於配置文件,只需在Nutch安裝的conf文件夾中直接更新它們即可。

UPDATE

我的工作類似的東西,我能夠做出從我的應用程序Nutch的工作,這些設置:設置CLASSPATH以包括Nutch的文件夾中(這樣它可以找到插件) Nutch/conf文件夾,幷包括來自nutch文件夾的Nutch/lib + nutch.jar中的所有jar。

但要小心,如果您的應用程序在Web容器中運行。我不得不弄糟類路徑使其工作...

+0

Nutch是我的應用程序的外部。我不想用我的抓取命令來運行nutch。我不想寫一個完整的爬行器索引器。我只是想用個別的nutch組件來抓取一個特定的網站,並抓取我感興趣的內容。 這種方式我只是有個別nutch組件和它的插件jar依賴。這編譯但以某種方式無法運行在日食與以下錯誤: java.lang.RuntimeException:在配置對象\t在org.apache.hadoop.util.ReflectionUtils.setJobConf(ReflectionUtils.java:93) – Nayn 2010-07-22 15:10:49

+0

錯誤,請參閱我的更新 – 2010-07-22 19:43:51

+0

嗨帕斯卡爾,對不起,再次問你,但我仍然無法得到它的工作。你有可能分享你的eclipse工作區(只是簡單的nutch爬行演示),這樣我就可以知道我失蹤的地方。我的郵件ID是nayanish [點]鉸鏈[在] gmail.com – Nayn 2010-08-19 10:57:51

相關問題