我有什麼應該是一個簡單的問題,但是我缺乏awk知識讓我失望。在使用awk的fasta頭文件中的分隔符後保留文本
我想清理FASTA文件,它是在這種格式的標頭:
>HWGG454_Clocus2_Locus3443_allele1
ATTCTACTACTACTCT
>GHW757_clocus37_Locus555662_allele2
CTTCCCTACGATG
>TY45_clocus23_Locus800_allele0
TTCTACTTCATCT
我想清理每個報頭(開頭的行「>」)只保留信息部分,這是第二個「_Locus *」,有或沒有等位基因部分。
我認爲awk會是這樣做的簡單方法,但我無法完成它的工作。我想運行這個(假設這個玩具的例子在文件test.fasta中):
cat test.fasta | awk -F '_' '{print $1}'
>HWGG454
ATTCTACTACTACTCT
>GHW757
CTTCCCTACGATG
>TY45
TTCTACTTCATCT
但是,我要的是留住只是「軌跡*」的文字,這是第3次分隔符之後,但是,使用這種代碼我得到這個:
cat test.fasta | awk -F '_' '{print $3}'
Locus3443
Locus555662
Locus800
我在做什麼錯在這裏?
謝謝。
什麼是您預期的輸出? – anubhava 2015-02-23 18:37:19