bioinformatics

    2熱度

    3回答

    這sed的comandline腳本預先考慮在一個文件中的每一行文字: sed -i 's/^/to be prepended/g' text.txt 我怎樣才能使它所以只做到這一點對每n 個線? 我正在使用測序數據,並且在「norma」多個fasta格式中,首先有一個標識符行用>來盯着,然後有額外的文本。 下一行以像「AATTGCC」等隨機DNA序列開始,當該字符串完成其新行和新標識符時,我如

    0熱度

    1回答

    我已經在微陣列基因表達集中識別出疾病病例和對照中感興趣的基因並應用了PCA。我想使用彈性網絡迴歸建立一個模型,可以確定哪些主要組件可以預測源(案例與控制),但我不確定如何做到這一點,即輸入什麼作爲x和y變量。任何幫助都將非常感謝!

    0熱度

    1回答

    我必須編寫一個函數,輸入一個包含dna序列的FASTA文件,其中ambiguous symbols (IUPAC)。鑑於FASTA文件的名稱和明確的DNA字符串,我想寫出序列的標識符('>'標題),其中給定的序列可能是子序列。我希望在不生成所有可能的序列的情況下執行此操作,並且子序列可能具有模糊符號以及FASTA文件中的序列。例如:序列「ACC」可能是「CGMBHTW」的子序列。 有人可以幫我嗎?

    1熱度

    2回答

    補基因型我有兩列 V1 V2 T 1 A 0 C 0 如果列V2是1,那麼我想替換核苷酸,如果互補0保持原樣是我寫的一個用於功能(在我的許多行數據),但他的表現後,我得到 V1 V2 V3 T 1 NA A 0 NA C 1 G 我使用的代碼 for(i in nrow(Tri1_a)){ if(Tri1_a$V2[

    0熱度

    1回答

    如果不重新分析我的數據,是否可以刪除熱圖中不感興趣的樣本列?例如,我繪製下面 使用heatmap.2形象化「IL2.OKT3」和「IL2」之間的頂部30個差異表達的基因。熱圖顯示所有樣品和供體的表達模式,但是,我只想顯示標有「IL2」和「IL2.OKT3」的樣品列。任何反饋意見。

    1熱度

    2回答

    我需要找到一個更快的方法來找到一個8-11字符串的互換,以下列方式單一的交換: 給定一個字符串'STDILGNLYE',找到所有的字母一個字母互換: list_AA = ['A', 'R', 'N', 'D', 'C', 'Q', 'E', 'G', 'H', 'I', 'L', 'K', 'M', 'F', 'P', 'S', 'T', 'W', 'Y', 'V'] 即,對於字

    2熱度

    1回答

    我有一個包含許多DNA序列片段的fasta文件集合。我試圖計算每個文件中可以找到的k-mers的總髮生次數。計數k-mers的好處在於可以創建大小爲4 ** k的單個數組,其中k是所使用的k-mer的大小。我正在處理的序列文件是來自新一代測序機器的短讀序列,因此假定讀數全部來自5' - > 3'末端,這是無法完成的。解決這個問題的最好方法是將觀察到的所有k聚體映射到正向和反向互補序列的單個索引。

    -1熱度

    1回答

    我試圖通過啓動子程序將幾個腳本合併到1個腳本中。問題在於我無法將輸入從1個下標指向另一個下標。這需要爲多個腳本完成。這些是他們整個列表中的前兩個腳本。 代碼1生成的數據需要提交給代碼2等。但是在代碼2中,還有一個將生成的文件與原始文件進行比較的額外步驟。 Code 1: subst_head_1($infile); sub subst_head_1 { ##this code

    -3熱度

    1回答

    我有900個訓練樣本和100個測試樣本,其中每個樣本都有一個標籤(例如64,136等)。這裏每個樣本都用一個尺寸爲460000的1維向量表示。 如何使用CAFFE對這些數據進行線性迴歸?我非常需要一個解決方案。 在此先感謝。

    2熱度

    1回答

    我有加載爲數據幀到R.基因組一個bed file座標,看起來很喜歡這樣的: chrom start end chrX 400 600 chrX 800 1000 chrX 1000 1200 chrX 1200 1400 chrX 1600 1800 chrX 2000 2200 chrX 2200 2400 有沒有必要把所有的行它會更好地壓縮它到這樣的事情: chrom sta