2011-09-03 79 views
2

我一直無法在問題或R軟件包中找到它,希望很簡單。計算R中兩個基因序列之間的百分比偏差

取兩個假設的基因序列:

Sequence A: ATG CGC AAC GTG GAG CAT 
Sequence B: ATG GGC TAC GTG GAT CAA 

欲具有R代碼來生成兩個序列之間在單核苷酸的百分比差異(例如15%)。

有什麼想法?提前致謝。

+0

不知道如何標記家庭作業。 –

回答

0

如果我正確理解你的問題,那麼你只需要做一個簡單的字符串比較。例如,

R> seq1 = c("A", "T", "G", "C", "G", "C", 
      "A", "A", "C", "G", "T", "G", 
      "G", "A", "G", "C", "A", "T") 
R> seq2 = c("A", "T", "G", "G", "G", "C", 
      "T", "A", "C", "G", "T", "G", 
      "G", "A", "G", "C", "A", "A") 
R> seq1 != seq2 
[1] FALSE FALSE FALSE TRUE FALSE FALSE TRUE FALSE FALSE FALSE FALSE FALSE 
[13] FALSE FALSE FALSE FALSE FALSE TRUE 
R> sum(seq1 != seq2)/length(seq1)*100 
[1] 16.67 

爲了讓您的數據在上面的格式,看看在strsplit功能。