bioinformatics

    8熱度

    2回答

    因此,我正在用一種酶(爲了您的好奇心,Asp-N)消化蛋白質序列,該酶在B或D編碼的蛋白質之前以單字母編碼序列切割。我的實際分析使用String#scan作爲捕獲。我試圖找出爲什麼下面的正則表達式不正確地消化它... (\w*?)(?=[BD])|(.*\b) 在先行(.*\b)存在捕獲序列的末尾。 爲: MTMDKPSQYDKIEAELQDICNDVLELLDSKGDYFRYLSEVASGD

    5熱度

    1回答

    目前,我正在設計一些糖生物學領域的格式轉換工具。格式轉換涉及從文本文件轉換爲該字段中標準的XML文件。大多數情況下,我們獲得的數據包含以下純文本文件中感興趣的信息。實際的文件包含在一行中。閱讀和分割這些文本以獲取信息是微不足道的(可能不直觀),但XML是問題所在。 [][b-D-GlcpNAc] {[(4+1)][b-D-GlcpNAc] {[(4+1)][b-D-Manp]

    0熱度

    1回答

    我遇到了將列表寫入文件的問題。我註釋某些文件,將它們轉換爲某種格式,因此我讀取序列對齊文件,將它們存儲在列表中,進行必要的格式化,然後將它們寫入新文件。問題是,當我的包含序列比對的列表結構正確時,將它們寫入新文件時產生的輸出不正確(它不會複製我的列表結構)。我只包括我的輸出的一部分以及它應該是什麼樣子,因爲列表本身太長而不能發佈。 輸出寫入文件: > TRFE_CHICK From XALI

    1熱度

    1回答

    我在安裝Cufflinks時遇到問題。在安裝Cufflinks之前,我先安裝了Boost: bjam --prefix=/Users/jimmy/Downloads/boost_1_46_1/ toolset=gcc link=static install 這似乎沒關係。 但是,安裝Cufflinks時,似乎安裝Boost時出現問題。見下面的錯誤: checking for python sc

    9熱度

    3回答

    規定的位置向左或向右讀this question,我認爲以下問題將使用StringSplit 簡單考慮下面的字符串,我要來「切割」它向左每一個 「d」,使得: 我得到碎片的列表(帶序列不變) StringJoin @fragments給巴ck原始字符串(但如果我必須重新排序片段以獲取此內容則無關緊要)。也就是說,每個片段內的序列都很重要,我不想丟失任何字符。 (我對的例子是蛋白序列(串),其中每個

    0熱度

    1回答

    我想爲FASTA文件(不使用biopython)設計解析器,並在以下區域遇到問題: 我有一個DNA序列列表,例如['AAACCCGAU ','AUUCCCCCCGGA','AACCCGGUU','AAACCCCUU']等。名爲sequence_lines2。 我的目標程序是: 如果列表中的元素有60個字符的倍數,請將其加入下一個元素。 這樣我可以刪除FASTA文件中的換行符。我寫的代碼看起來是這樣

    1熱度

    2回答

    我有一個bam文件並使用bioperl(Bio :: DB :: Sam)來處理它。 現在我想問一下在這個文件中是否有添加標籤到路線的可能性? 我使用 my $iterator = $bam->features(-iterator => 1, -flags => {M_UNMAPPED=>0}); while (my $align = $iterator-

    2熱度

    3回答

    im使用mac 10.6.7和xcode 4安裝gcc 4.2時遇到問題。 但是當我用安裝biopython: 蟒蛇的setup.py的命令安裝 ,它給出了錯誤的GCC: 10-54-41-155-wireless1x:biopython-1.57 xueran2010$ python setup.py install running install running build runnin

    10熱度

    3回答

    我正在研究一個python項目,在那裏我研究RNA結構的演變(例如:「(((...)))」括號代表鹼基對)。重點是我有一個理想的結構和一個朝着理想結構發展的人口。我已經實現了一切,但是我想添加一個功能,讓我可以得到「桶數」,即每代人羣中k個最具代表性的結構。 我正在考慮使用k-means算法,但我不確定如何在字符串中使用它。我發現scipy.cluster.vq,但我不知道如何在我的情況下使用它。

    2熱度

    2回答

    對於這個非常簡單的問題,我對腳本編程相對陌生,並且提前道歉。我相信我已經搜索得非常徹底,但顯然沒有其他答案或食譜書明確足以讓我理解(如here - 仍然無法獲得)。 我有一個由字母串(DNA,如果你在意的話)組成的文件,每行一個字符串。在每個字符串上方插入另一行來標識基礎字符串。對於那些生物信息學家,我試圖用fasta格式編寫測試數據集,也許你有工具?無論如何,我會在每個「>」後加上一個不同的單詞