bioinformatics

1熱度

1回答

我試圖訪問NCBI SRA數據庫，查詢它的ID列表並將輸出保存到矩陣。我正在使用Bioconductor的sradb軟件包來做到這一點，現在我可以訪問和查詢數據庫，但它真的很慢，我不知道如何保存循環輸出。文件GPL11154_GSMs.txt包含我感興趣的ID和它看起來像這樣： GSM616127 GSM616128 GSM616129 GSM663427 GSM665037 我現

2熱度

2回答

使用要求通過多頁

我想通過以下網頁瀏覽導航： http://www.regulomedb.org/ 從本質上講，我在文本框中輸入我的數據，然後點擊提交。提交後，我想下載可用的文件。截至目前，我有： data = {'data': 'rs7881236'} resp = requests.post('http://www.regulomedb.org/results', data) 當我看的RESP的內容，我

2熱度

3回答

如何在R中使用三個data.frames創建一個雙重播種的「if」循環？

我有如下一個數據幀，df1和df2：像 # data df1 <- read.table(text = " SNP CHR BP A1 A2 zscore P CEUmaf LOC rs58043752 1 3344877 A G 0.289 0.7726 . 1:3344877 rs2483242 1 3345145 A T 0.393 0.6946 .

3熱度

1回答

將字符串轉換數據集的矩陣

我有製表符分隔的數據集，所以我想下面的數據集轉換成一個矩陣 CATGGGGAAAACTGA CCTCTCGATCACCGA CCTATAGATCACCGA CCGATTGATCACCGA CCTTGTGCAGACCGA 我用 rbind(strsplit("CATGGGGAAAACTGA","")[[1]], strsplit("CCTCTCGATCACCGA","")[[

0熱度

1回答

用於創建唯一ID的陣列散列

我想爲具有基因轉錄本的文件創建唯一ID。每一行由transcript_id和intron格式組成：染色體：start_coord-end_coord：strand。我的文件看起來像這樣： CUFF.59321 chr7:134136506-134143748:- CUFF.59321 chr7:134135655-134136337:- CUFF.59321 chr7:13413455

-3熱度

1回答

如何閱讀串入在Perl

哈希我在他們一系列的隨機A的，G的，C和T的一個文件，該文件是這樣的： >Mary ACGTACGTACGTAC >Jane CCCGGCCCCTA >Arthur AAAAAAAAAAT 我把這些字母和串連他們以ACGTACGTACGTACCCCGGCCCCTAAAAAAAAAAT結束。我現在在這個連接序列中有一系列對我感興趣的位置，我想找到與這些位置（座標）相匹配的關聯名稱。我使

2熱度

2回答

如何創建一個新的列顯示，如果多少變量共享特定的觀察

我有一個關於生物信息學數據的R.分析問題我的測試數據幀由一個變量「序列」與不同的字母代碼作爲觀察值，並且代表個體/樣本（P1，P2，P3）的三個不同變量，表示特定觀察在個體中的計數頻率（例如P3包含序列「AB」，例如23次）。我想現在創建一個新的列（已經在我的數據框中顯示爲帶有NA的虛擬列X），該列顯示了每個序列行是否該序列在個體之間總體共享（P1，P2，P3），更重要的是多少三個人分享它。例

2熱度

3回答

使用Biopython過濾基於IDS的FASTA文件

我對python編程非常新穎。我有fasta文件包含一些植物物種的蛋白質序列。我想根據每個序列包含的氨基酸數量對它們進行過濾。標準是那些> 20個氨基酸的序列。我能夠得到氨基酸序列超過20與biopython cookbook資源。但是，當我試圖將它們寫在文件上時，它給了我這個Error。我無法解決這個錯誤。此外，我還想在輸出文件中包含每個序列的ID。請幫幫我！代碼： import Bio

3熱度

2回答

遍歷目錄中的文件，創建輸出文件linux

我想遍歷特定目錄（稱爲序列）中的每個文件，並對每個文件執行兩個函數。我知道函數（'blastp'和'cat'行）起作用，因爲我可以在單個文件上運行它們。通常我會有一個特定的文件名作爲查詢，輸出等，但我試圖使用一個變量，因此循環可以通過許多文件工作。我相信我在嘗試在函數中使用我的文件名時遇到了嚴重的問題。事實上，我的代碼將會執行，但它會創建一堆額外的非預期文件。這是我打算爲我的腳本執行的操作：第1

-1熱度

1回答

寫入fasta文件，只創建最後一行

這是我寫的將dna序列翻譯成蛋白質序列的代碼。該功能起作用，但是當我嘗試輸出蛋白質序列時，只有最後一個序列出現在文件中。 def translate(dna_seq): #create function "this function translates a dna sequence into a single letter code amino acid sequence"