bioinformatics

1熱度

1回答

在Python中，我使用EggLib。我試圖計算在VCF文件中找到的每個SNP的Jost's D值。數據數據是在VCF格式here。數據集很小，有2個種羣，每個羣體100個個體和6個SNPs（全部在第1號染色體上）。每個人都被命名爲Pp.Ii，其中p是其所屬的人口指數，i是個別指數。代碼我的困難表示關注人口結構的規範。這是我的試驗 ### Read the vcf file ### v

2熱度

1回答

在Biopython PDB模塊中獲取殘基編號和殘基名稱

我正在使用pymol的迭代獲取所有殘基編號，然後使用它們檢索殘基名稱。我認爲這不是最好的辦法。我試圖尋找一種biopython的方式無濟於事。我希望你的意見和建議。一個側面的問題，有時甚至是鏈[i] .resname給我一個KeyError：（''，'number'，''）帶有一定的殘基，這使我使用try和except塊。任何替代品？ from Bio import * from Bio.PD

0熱度

1回答

如何使用帶有正則表達式的向量從數據框中刪除數據列

我想從數據框中刪除使用數字向量的列，這些數字只是整個列標題的一部分。我想要使用的是像unix中的通配符「*」，所以我可以說，我想要刪除帶有標籤的列xxxx，xxkx等...爲了說明我的意思，如果我有以下數據： data_test_read <- read.table("batch_1_8c9.structure-edit.tsv",sep="\t", header=TRUE) data_te

1熱度

1回答

如何從如R numpy的

我存儲在bed file在numpy的這樣提取特殊的數據： >>> t array([['chr1', '2488152', '2488153'], ['chr1', '2488397', '2488398'], ['chr1', '2491262', '2491417'], ..., ['chrX', '153628144', '15362828

0熱度

1回答

getopt不太能工作，我做錯了什麼？

我不知道爲什麼下面的代碼不工作 - 我得到的錯誤 NameError: name 'group1' is not defined. 的代碼能正常工作之前，我試圖用getopt的..我試圖解析命令行輸入，以便例如，如果我把 python -q file1 file2 -r file3 file4 file1和file2成爲我的第一個循環輸入爲'group1'。 import sys imp

0熱度

1回答

帶有字母的氨基酸頻率直方圖

我試圖在肽庫中獲取氨基酸組成和頻率的圖形視圖。我知道如何創建一個基本的直方圖有R，但我經常看到這樣的plot in publication 我能做到有R類似的東西？

1熱度

1回答

檢索URL Perl中獲得，因爲方法它對在生物信息學服務器長度

我用perl程序，使這隻需一個序列在時間發現的圖案生物信息學服務器，把我的序列（$ SEQ），同時從文本文件（example.txt）包含6000多個超過10000bp的序列。問題是當我的序列超過1408bp時，由於這樣的長度，我得到URL無法檢索的錯誤。請幫助我解決perl中的這個問題。 #!usr/bin/perl use LWP::Simple; my $file = 'example.

1熱度

1回答

轉換成字符串不同字母一個字母與多輸出

所以我有一個DNA序列 DNA = "TANNNT" where N = ["A", "G", "C", "T"] 我希望有TAAAAT, TAAAGT, TAAACT, TAAATT.....等所有可能的輸出。現在從網上我發現了排列的解決方案，我可以做 perms = [''.join(p) for p in permutations(N, 3)] 然後就重複我的DNA序列 TA + perm

2熱度

1回答

rcdk R包未能計算來自SMILES代碼的指紋

我正在使用微笑代碼獲得FDA批准的可用於chEMBL 22數據庫的藥物。我現在用的是package rcdk，我使用此代碼： library(rcdk) dat1<-read.csv("chembl_22_drug_export.txt",sep="\t",header=T) smi <-lapply(as.character(dat1$CANONICAL_SMILES),parse.smi

0熱度

2回答

R Plot使用For循環的多圖函數

事先道歉，我已經做了一點哈希。我有一個相對較大的數據集，如下所示：這裏存在問題。我一直在創建GLM，從中我可以估計出混雜變量和夾具的基準線（如果你不知道我在這裏的意思，基本上我需要計算我的最佳擬合線，而不是通過平均值點）。這一切都很好，很棒，因爲我製作了一行代碼，可以解決這個問題。可悲的是，我有19張這樣的圖 - 每行1張 - 需要爲6組數據做這件事。我試圖使這個過程自動化，到目前爲止是痛苦和