我有一個文件,如下所示:插入模式匹配後面的線
Scaffold2 GeneWise mRNA 3038 6649
Scaffold2 GeneWise CDS 3038 3480
Scaffold2 GeneWise CDS 4175 4291
Scaffold3 GeneWise mRNA 2824 15173
Scaffold3 GeneWise CDS 2824 3302
Scaffold3 GeneWise CDS 4143 4344
我想有這樣的輸出:
Scaffold2 GeneWise mRNA 3038 6649
Scaffold2 GeneWise CDS 3038 **3480**
Scaffold2 GeneWise 1st_intron **3480 4175**
Scaffold2 GeneWise CDS **4175** 4291
Scaffold3 GeneWise mRNA 2824 15173
Scaffold3 GeneWise CDS 2824 **3302**
Scaffold3 GeneWise 1st_intron **3302 4143**
Scaffold3 GeneWise CDS **4143** 4344
它應該如下: 如果列3是「表達',取下一行的第5列和該行的第4列,然後在包含第4列和第5列(如粗體數字表示)的兩行之間插入一條新行,並在第三列名爲'1st_intron'。
我從來沒有處理過這樣的問題,如果你能給我一些提示,那就太好了。
這樣會在某些情況下重複行併產生各種其他負面影響。請參閱http://awk.info/?tip/getline –