2013-03-16 54 views

回答

1

該鏈路可以通過使用下面的命令可以找到

倉/ Nutch的readdb PATH_TO_CRAWL_DB -stats -sort -dump DUMP_FOLDER設置格式的csv

這將產生部分-00000文件中dump_folder其中將包含url列表及其狀態分別。

具有db_unfetched狀態的那些已被履帶式程序忽略。

+0

正是我想要的。謝謝! – sunskin 2013-03-25 15:38:19