在分隔符上分割文件

我在Linux系統上有一個大約10GB的文件。它包含20,000,000個二進制記錄，但每個記錄由ASCII分隔符「$」分隔。我想使用split命令或其組合將文件分塊成較小的部分。理想情況下，我可以指定該命令應該將每1,000條記錄（因此每1,000個分隔符）拆分爲單獨的文件。有人能幫忙嗎？在分隔符上分割文件

來源

2011-06-01 Jeffrey Kevin Pry

問題的唯一非傳統部分似乎是記錄分隔符。我敢肯定，這可以在awk中修復 - 但我碰巧討厭awk。

我會在「正常」的問題，第一境界其轉移：

tr '$' '\n' < large_records.txt | split -l 1000

默認將創建xaa，xab，xac ......文件;看man split更多選項

來源

2011-06-01 12:02:16 sehe

這完美地工作了它產生的記錄直到它出現錯誤（我認爲這是一個非常簡單的修復）。錯誤是：split：輸出文件後綴耗盡。謝謝你的幫助！ – 2011-06-01 12:22:59

呃...我修復了你的manpage鏈接; ['split ... -a 7']（http://unixhelp.ed.ac.uk/CGI/man-cgi?split）應該做得很好 – sehe 2011-06-01 12:35:48

非常好。很棒！ – 2011-06-01 12:39:45

我愛awk的:)

BEGIN { RS="$"; chunk=1; count=0; size=1000 } 
{ 
    print $0 > "/tmp/chunk" chunk; 
    if (++count>=size) { 
     chunk++; 
     count=0; 
    } 
}

（注意，awk中的重定向操作者只需截斷/創建它的第一次調用的文件 - 後續引用被視爲附加業務 - 不像外殼重定向）

來源

2011-06-01 12:16:03 symcbean

確保在默認情況下Unix的分裂將後綴耗盡一旦它到達的2更多信息缺省後綴限制最大閾值：https://www.gnu.org/software/coreutils/manual/html_node/split-invocation.html

來源

2013-11-06 00:34:56

在分隔符上分割文件

回答

相關問題