鍵請我又需要一些幫助。比較從第一字典值從第二詞典
我有一個大的數據庫文件(姑且稱之爲db.csv)包含許多信息。
簡化數據庫文件來說明:
我在我的基因序列運行usearch61 -cluster_fast爲了將羣集他們。
我得到了一個名爲「clusters.uc」文件。我打開了它爲csv,然後我做了一個代碼來創建一個字典(假設dict_1)有作爲值我的簇號鍵和我的gene_id(VFG ...)。
這裏是我做了什麼,然後存儲在一個文件中的一個例子:dict_1
0 ['VFG003386', 'VFG034084', 'VFG003381']
1 ['VFG000838', 'VFG000630', 'VFG035932', 'VFG000636']
2 ['VFG018349', 'VFG018485', 'VFG043567']
...
14471 ['VFG015743', 'VFG002143']
到目前爲止好。然後使用db.csv我又字典(dict_2)中gene_id(VFG ...)是鍵和VF_Accession(IA ...或CVF ..或VF ...)是值,例證:dict_2
VFG044259 IA027
VFG044258 IA027
VFG011941 CVF397
VFG012016 CVF399
...
我到底想要什麼是對每個VF_Accession羣集組的數量,插圖:
IA027 [0,5,6,8]
CVF399 [15, 1025, 1562, 1712]
...
所以我想,因爲我仍然在編碼初學者,我需要創造一個比較代碼從dict_1(VFG ...)到dict_2(VFG ...)的鍵值。如果它們匹配,則將VF_Accession作爲關鍵字,並將所有簇號作爲值。由於VF_Accession是鍵不能重複的,我需要一個列表字典。我想我可以做到這一點,因爲我爲dict_1製作了它。但我的問題是,我無法找出一種方法來比較dict_1中的值和dict_2中的鍵值,並將每個VF_Accession值放入一個簇號。請幫幫我。
我不對生物有很多瞭解 - 同一個gene_id(VFG)能夠出現在多個集羣中嗎? –
是的,其中有些是不幸的。也許有類似的IA027 [0 | 12,5,6,8]或IA027 [0(12),5,6,8] –