genome

    0熱度

    2回答

    目前,我正在爲AWK問題苦苦掙扎,而這個問題目前還無法解決。我有一個包含基因組數據的巨大文件(30GB),其中包含位置列表(第1列和第2列中聲明),第2列列表包含多個範圍(第3列,第4列和第5列)。我想提取位置在秒文件中聲明的範圍內的第一個文件中的所有行。作爲位置僅爲某些染色體(CHR)第一有要被測試,如果字符的是相同的(在文件即COL1 file2中1個匹配COL3) 文件1 chromosom

    -1熱度

    1回答

    我需要使用blat工具。我需要找到基因組中某些基因的起始和終止位置。我從下面的鏈接下載了該工具: http://genome.ucsc.edu/FAQ/FAQblat.html,一個blat文件+ blatSrc.zip文件。 我不知道如何運行它。用戶指南可以在下面的鏈接中找到: http://genome.ucsc.edu/goldenPath/help/blatSpec.html 任何人都可以

    1熱度

    2回答

    我已經在網上搜索了這個,但沒有多少運氣。或多或少,您總是可以從VariantAnnotation包中獲得示例。而且由於這個例子在我的電腦上正常工作,我不知道爲什麼我創建的VCF沒有。 問題:我想確定選定基因中SNP的數量和位置。我有一個大的VCF文件(超過5GB),其中包含幾個小鼠品系所有染色體上所有SNP的信息。顯然,如果我試圖在整個基因組規模上做任何事情,我的計算機就會凍結,因此我首先確定了染

    -1熱度

    1回答

    我試圖使用LiftOver功能rtracklayer包,但我得到一個錯誤,這是我的代碼: library(rtracklayer) library(gwascat) library(IRanges) chain <- import.chain("bosTau6.hg19.all.chain") df <- read.table(textConnection("chr start end

    0熱度

    1回答

    from Bio.Blast import NCBIXML from Bio.Blast import NCBIWWW result_handle = NCBIWWW.qblast( "blastn", "nr", "CACTTATTTAGTTAGCTTGCAACCCTGGATTTTTGTTTACTGGAGAGGCC", entrez_query='"B

    -5熱度

    1回答

    我目前有兩個數據表,其中一個包含獨立和控制變量的列,而另一個包含因變量的行。 任何人都可以幫助創建一個方法,從兩個表中重複執行依賴值表中的每一行的線性模型?

    1熱度

    2回答

    我在製表符分隔的牀文件中有一套原始基因組座標(chrom,start,end)。我還有額外的製表符分隔牀文件,其中包含一些原始基因組座標以及與這些座標相關的數值。這些座標可以每次在牀文件中以不同的數值顯示多次。我需要一個最終牀單文件,其中包含每個原始基因組座標以及所有與該特定座標關聯的值的總和數。我正在使用的文件的示例如下。 原始文件: chr1 2100 2300 chr2 3300 360

    0熱度

    1回答

    我有兩個非常大的基因列表A和B.A有兩列:GeneID和p值,而B只有一列GeneID。有B中大約10萬個基因,這些都是基因的一個子集(約70基因在這裏): GeneListA GeneID p.value 41931 0.0210 41931 0.0003 5310612 0.3161 5310612 0.7089 5310612 0.0021 98317 0.1139

    1熱度

    2回答

    我想隨機獲取大量人類基因組片段(超過5億個)。 這是整個過程的部分工作。我有來自bowtie的.sam結果文件,有1000萬人類基因組讀取對齊。我想要將每個查詢讀取與sam文件中「與之對齊的參考序列」進行比較。我使用的參考序列是來自UCSC的hg19.fa。所以我需要能夠通過使用sam文件中的位置從hg19.fa(或染色體文件)獲取序列。 例如與給:CHR 4:35654-35695,我能得到42

    2熱度

    1回答

    如果我有一個像 foo = dtype([('chrom1', '<f4', (100,)), ('chrom2', '<f4', (13,))]) 一個D型我怎樣才能創建一個D類的一個實例,作爲一個標量。 背景,如果有一個更好的辦法: 我想直接有效的標量代表映射陣列在基因組的基礎上,通過染色體染色體。我不想要這些基因組數組的數組,每一個都只是一個結構化的標量集,我想通過名稱/位置來引用,並且