2
A
回答
0
默認情況下,heritrix使用ARCWriterProcessor將其所有已抓取的內容寫入磁盤。該處理器將找到的爬網內容寫入Internet Archive ARC文件。 ARC文件格式在這裏描述:Arc File Format。 Heritrix寫入版本1 ARC文件1。
ARC文件位於您的爬網實例的arcs/
文件夾中。您可以更改heritrix的Web-GUI設置中的位置。
除了默認的ARCWriterProcessor,您可以將其設置爲WARCWriterProcessor(WARC文件),MirrorWriterProcessor(根本沒有容器)或Kw3WriterProcessor。 AFAIK,你甚至可以設置多個作家。請注意,選擇MirrorWriterProcessor時,並非所有文件都可能寫入光盤,具體取決於您用於將文件寫入的文件系統。
相關問題
- 1. Python網絡爬蟲的文件存儲問題
- 2. 網絡爬蟲
- 3. 網絡爬蟲提取
- 4. 在MYSQL中使用JAVA網絡爬蟲存儲印地文詞
- 5. PHP網絡爬蟲
- 6. java網絡爬蟲
- 7. Python網絡爬蟲
- 8. 如何使用Python從Heritrix爬蟲中讀取.ARC文件?
- 9. 在Scala中的網絡爬蟲算法
- 10. 在android上的簡單網絡爬蟲?
- 11. 網絡爬蟲產生輸出緩存
- 12. 需要網絡爬蟲
- 13. 自動網絡爬蟲
- 14. 網絡爬蟲,反饋?
- 15. 網絡爬蟲不打印
- 16. 網絡爬蟲應用
- 17. Scrapy網絡爬蟲獲取錯誤
- 18. 如何讓Nutch的爬蟲抓取
- 19. 網絡爬蟲文本格式
- 20. 讓PHP網絡爬蟲尊重任何網站的robots.txt文件
- 21. 網絡爬蟲網址存儲在數據庫 - 快速URL查找 - 散列 - C#
- 22. 針對windows的增量爬網支持的網絡爬蟲
- 23. 簡單的Python網絡爬蟲
- 24. 解析HTML的網絡爬蟲
- 25. 網絡爬蟲的工作是什麼?
- 26. 網絡爬蟲抓取基於AJAX的鏈接沒有瀏覽器
- 27. 蟒蛇爬蟲代碼搜索網絡上的任何文件
- 28. 如何忽略網絡爬蟲中的文件類型?
- 29. python網絡爬蟲,當我抓取一個URL時,status_code顯示405
- 30. Scrapy爬蟲不抓取或無法寫入CSV文件?
您是否檢查手冊? – 2010-05-20 04:37:45
是的,我想要查看抓取文件... 該文件的格式是什麼... 我將如何解析? – 2010-05-20 04:41:13