我只會深入解釋我的編程問題:我有兩個文件;文件#1是基因註釋文件,文件#2是基準位置文件計數(只是試圖給出問題的上下文)。使用python中的兩個文件中的信息計算以前的行
我想在第6列有一個「+」的行中提取「start_codon」位置,然後轉到文件#2中的那個位置。例如,我想從文件#1中的列號3中提取954,並轉到文件#2中的行號954。然後,我要計算文件#2中第954行之上的行數,計數值爲70或更大。
File#1
Chromosome exon 337 774 0.0 - . gene_id "A";
Chromosome start_codon 954 956 0.0 + 0 gene_id "B";
Chromosome stop_codon 2502 2504 0.0 + 0 gene_id "B";
File#2
. .
. .
942 71
943 63
944 88
945 80
946 80
947 85
948 86
949 97
950 97
951 97
952 104
953 105
954 104
955 108
我的最終輸出文件將是gene_id後跟得到的70或更大的計數值的行數的製表符分隔的文件。對於我給出的示例文件,輸出如下:
Gene_id Count_before_start_codon
B 10
我想通過大文件循環生成一個長輸出文件。
謝謝,我希望這很清楚。我很欣賞任何指導!
爲了減少編碼工作,你可以'grep'^ +'inputfile> script.py'來處理匹配的行,並將一些工作轉移到內置grep的。 – 2013-04-09 01:12:36