2012-04-17 77 views
2

我偶然發現一個Genbank登錄格式的文件(這裏示出爲一個最小的虛設例子),其包含嵌套特徵是這樣的:這是一個有效的Genbank功能描述或Biopython錯誤?

FEATURES    Location/Qualifiers 
    xxxx_domain  complement(complement(1..145)) 

這種特徵崩潰當前Biopython Genbank登錄解析器(1.59版本),但它顯然沒有在以前的版本中(例如1.55)。顯然這個行爲已經在1.57(見下面的評論)。

從Biopython錯誤追蹤,似乎老locationparser代碼得到了在1.56刪除:

從我能從格式描述推斷在ftp://ftp.ncbi.nih.gov/genbank/gbrel.txthttp://www.insdc.org/documents/feature_table.html#3.4.2這很可能是無效的。 (但請參閱下面的評論)。

有人可以對此發表評論。即這是Biopython中的一個小故障還是Genbank文件的格式?

完整演示文件:

LOCUS  XXXXXXXXXXXXXX   240 bp DNA  circular  17-JAN-2012 
DEFINITION xxxxxx. 
KEYWORDS xx. 
SOURCE  
    ORGANISM 
FEATURES    Location/Qualifiers 
    xxxx_domain  complement(complement(1..145)) 
        /vntifkey="1" 
        /label=A label 
        /note="A note" 
BASE COUNT  75 a  57 c  42 g  66 t 
ORIGIN 
     1 tttacaaaac gcattttcaa accttgggta ctaccccctt ttaaatatcc gaatacacta 
     61 ataaacgctc tttcctttta ggtaaacccg ccaatatata ctgatacaca ctgatagttt 
     121 aaactagatg cagtggccga ccatcagatc tagtaggaaa cagctatgac catgattacg 
     181 cattacttat ttaagatcaa ccgtaccagt ataccctgcc agcatgatgg aaacctccct 
// 

最小演示程序,以顯示錯誤(假定Biopython 1.59和Python 2.7被安裝和上述文件是可爲「test.gb」:

#!/usr/bin/env python 
from Bio import SeqIO 
s = SeqIO.read(open("test.gb")), "r"), "genbank") 

這崩潰,並

raise LocationParserError(location_line) 
Bio.GenBank.LocationParserError: complement(1..145) 
+0

如果對你有幫助,我也會在v1.57上得到同樣的錯誤。 略讀[GenBank功能表定義](http://www.insdc.org/documents/feature_table.html),這似乎是完全有效的... – 2012-04-17 23:18:52

+0

謝謝。我編輯了主帖以包含評論。 – Marc 2012-04-18 08:11:51

+1

真正好的問題是爲什麼任何人都想補充補充... – EricR 2012-04-18 21:53:49

回答

1

我相信這是一個無效的位置。此從NCBI文件或其他地方?

請注意,對於Biopython 1.60(下一版本),我們計劃將不良位置視爲警告而不是停止解析的錯誤。

+0

從內部數據源(它與VNTI接觸)。 – Marc 2012-04-19 08:43:49