2012-01-28 127 views
0

好吧,我有幾百個我感興趣的蛋白質片段(699個序列),我想對齊並且做一個鄰居連接樹。這些片段在很多情況下不能很好地彼此對齊(相同或相似蛋白質的不同區域)。然而,整個蛋白質序列已被定義並提交給NCBI和其他數據庫等。在這些蛋白質的文獻中也有樹。有沒有辦法從我的宏基因組中取出我的片段,並將它們與已知序列對齊以定義我的每個片段在發佈的樹上的位置?我對此的唯一解決方案是在預定義樹上運行每個序列(或序列簇)(使用來自出版物的原始完整蛋白質序列),以便定義每個片段位於何處。有沒有更簡單的方法來做到這一點?相同蛋白質的片段的系統發育樹(來自宏基因組)

+0

你或許應該支持這樣的:http://area51.stackexchange.com/proposals/6729/bioinformatics;同時你可以在http://scicomp.stackexchange.com/找到幫助。 – Marcin 2012-01-28 14:46:52

+0

可能更好的地方來問這個問題在這裏:http://biostar.stackexchange.com/ – PhiS 2012-01-29 14:42:27

回答

0

那麼對齊工具Clustal可以對齊,也可以用適當的標誌來製作樹。我相信,如果你創建一個fasta文件,其中包含所有序列,包括最大的一個宏基因組。它可以使你根據對齊分數自動生成系統發育樹。我不確定這是否能夠實現你所期望的一切,但這是一個開始。您可能必須創建幾個.fasta文件,以使用一些智能設計和先前的知識來對齊以產生所需的結果。這裏是一個Perl腳本,我寫了,使比對和系統進化樹:

#!/usr/bin/perl 


use warnings; 

print "Please type the list file name of protein fasta files to align (end the directory path with a/or this will fail!): "; 
$directory = <STDIN>; 
chomp $directory; 

opendir (DIR,$directory) or die $!; 

my @file = readdir DIR; 
closedir DIR; 

my $add="_align.fasta"; 

foreach $file (@file) { 
my $infile = "$directory$file"; 
(my $fileprefix = $infile) =~ s/\.[^.]+$//; 
my $outfile="$fileprefix$add"; 
system "/Users/Wes/Desktop/eggNOG_files/clustalw-2.1-macosx/clustalw2 -INFILE=$infile -OUTFILE=$outfile -OUTPUT=FASTA -tree"; 
}