在抓取的文件存儲在Heritrix的網絡爬蟲

我想知道在哪裏爬網的文件存儲在Heritrix的網絡爬蟲...在抓取的文件存儲在Heritrix的網絡爬蟲

感謝，並提前

2010-05-20 zahir hussain

您是否檢查手冊？ – 2010-05-20 04:37:45

是的，我想要查看抓取文件... 該文件的格式是什麼... 我將如何解析？ – 2010-05-20 04:41:13

默認情況下，heritrix使用ARCWriterProcessor將其所有已抓取的內容寫入磁盤。該處理器將找到的爬網內容寫入Internet Archive ARC文件。 ARC文件格式在這裏描述：Arc File Format。 Heritrix寫入版本1 ARC文件¹。

ARC文件位於您的爬網實例的arcs/文件夾中。您可以更改heritrix的Web-GUI設置中的位置。

除了默認的ARCWriterProcessor，您可以將其設置爲WARCWriterProcessor（WARC文件），MirrorWriterProcessor（根本沒有容器）或Kw3WriterProcessor。 AFAIK，你甚至可以設置多個作家。請注意，選擇MirrorWriterProcessor時，並非所有文件都可能寫入光盤，具體取決於您用於將文件寫入的文件系統。

[1] Internet Archive ARC files

來源

2010-05-20 10:22:44

在抓取的文件存儲在Heritrix的網絡爬蟲

回答

相關問題