相同蛋白質的片段的系統發育樹（來自宏基因組）

好吧，我有幾百個我感興趣的蛋白質片段（699個序列），我想對齊並且做一個鄰居連接樹。這些片段在很多情況下不能很好地彼此對齊（相同或相似蛋白質的不同區域）。然而，整個蛋白質序列已被定義並提交給NCBI和其他數據庫等。在這些蛋白質的文獻中也有樹。有沒有辦法從我的宏基因組中取出我的片段，並將它們與已知序列對齊以定義我的每個片段在發佈的樹上的位置？我對此的唯一解決方案是在預定義樹上運行每個序列（或序列簇）（使用來自出版物的原始完整蛋白質序列），以便定義每個片段位於何處。有沒有更簡單的方法來做到這一點？相同蛋白質的片段的系統發育樹（來自宏基因組）

來源

2012-01-28 user1175280

你或許應該支持這樣的：http://area51.stackexchange.com/proposals/6729/bioinformatics;同時你可以在http://scicomp.stackexchange.com/找到幫助。 – Marcin 2012-01-28 14:46:52

可能更好的地方來問這個問題在這裏：http：//biostar.stackexchange.com/ – PhiS 2012-01-29 14:42:27

那麼對齊工具Clustal可以對齊，也可以用適當的標誌來製作樹。我相信，如果你創建一個fasta文件，其中包含所有序列，包括最大的一個宏基因組。它可以使你根據對齊分數自動生成系統發育樹。我不確定這是否能夠實現你所期望的一切，但這是一個開始。您可能必須創建幾個.fasta文件，以使用一些智能設計和先前的知識來對齊以產生所需的結果。這裏是一個Perl腳本，我寫了，使比對和系統進化樹：

#!/usr/bin/perl 


use warnings; 

print "Please type the list file name of protein fasta files to align (end the directory path with a/or this will fail!): "; 
$directory = <STDIN>; 
chomp $directory; 

opendir (DIR,$directory) or die $!; 

my @file = readdir DIR; 
closedir DIR; 

my $add="_align.fasta"; 

foreach $file (@file) { 
my $infile = "$directory$file"; 
(my $fileprefix = $infile) =~ s/\.[^.]+$//; 
my $outfile="$fileprefix$add"; 
system "/Users/Wes/Desktop/eggNOG_files/clustalw-2.1-macosx/clustalw2 -INFILE=$infile -OUTFILE=$outfile -OUTPUT=FASTA -tree"; 
}

來源

2012-10-09 05:15:56

相同蛋白質的片段的系統發育樹（來自宏基因組）

回答

相關問題