0
我使用這個命令行程序,我在another post on SO中找到了描述如何蜘蛛網站。數據如何通過管道進行處理?
wget --spider --force-html -r -l2 http://example.com 2>&1 | grep '^--' | awk '{ print $3 }' | grep -v '\.\(css\|js\|png\|gif\|jpg\)$' > wget.out
當我抓取一個大型站點時,需要很長時間才能完成。同時磁盤上的wget.out文件顯示零大小。那麼,管道數據何時被處理並寫入磁盤上的文件?它是否在管道的每個階段都已經運行完成之後?那樣的話,wget.out會在整個抓取結束後填滿嗎?
如何使程序間歇地寫入磁盤,以便即使爬行階段中斷,我也保存了一些輸出?
可能重複[關閉管道中的緩衝](http://stackoverflow.com/questions/1000674/turn-off-buffering-in-pipe) – eumiro 2011-01-24 11:10:40