從使用python

不同列表比較元件

我已經產生的兩個多組分列出與下面的腳本：從使用python

list1 = list() 
for line in infile1.readlines(): 
    list1.append(line.split('\t')) 

list2 = list() 
for line in infile2.readlines(): 
    list2.append(line.split(‘\t’))

名單看起來像這樣：

list1 = ('1960', 'chr17', '+', 'RNF213'), ('1963', 'chr16', '+', 'SF3B3'), ('1964', 'chr4', '-', 'GPRIN3')... 

list2 = ('1482', 'miR-K12-1'), ('1018', 'miR-K12-4-5p'), ('1960', 'miR-K12-12')...

從所述第一條目中的第一元件在list1中（在本例中爲「1960」）將匹配list2中一個或多個條目的第一個元素。我想要做的是找到每個匹配，然後將list2條目的最後一個元素添加到list1條目中。所需的輸出的一個例子是：

('1960', 'chr17', '+', 'RNF213', 'miR-K12-12')

我已經試過這一點，但它沒有返回值：

result = [] 
for list1[0] in list1: 
    if list1[0] == list2[0]: 
     result.append((list1[0:], list2[1]))

來源

2014-09-04 Lauren Gay

如果list2中有多個匹配項，會發生什麼？ – 2014-09-04 15:50:31

我假設如果有多個匹配他們應該*所有*被追加。 – 2014-09-04 15:54:11

從表2將值轉換成字典;第一列中的每個唯一值指向第二列中的值列表。因爲你有製表符分隔值，你應該使用這裏的csv module：

import csv 

lines2 = {} 

with open(filename2, 'rb') as infile2: 
    reader = csv.reader(infile2, delimiter='\t') 
    for row in reader: 
     lines2.setdefault(row[0], []).append(row[1])

dict.setdefault()設置默認值（這裏是一個列表對象），如果關鍵是尚未在詞典中。這使我們可以追加到第一個值的空列表中，然後將其添加到已存在的列表中。

現在你可以平凡查找處理其他文件時，匹配行：

with open(filename1, 'rb') as infile1: 
    reader = csv.reader(infile1, delimiter='\t') 
    for row in reader: 
     row += lines2.get(row[0], []) 
     print row

演示：

>>> import csv 
>>> list1 = ['\t'.join(r) for r in [('1960', 'chr17', '+', 'RNF213'), ('1963', 'chr16', '+', 'SF3B3'), ('1964', 'chr4', '-', 'GPRIN3')]] 
>>> list2 = ['\t'.join(r) for r in [('1482', 'miR-K12-1'), ('1018', 'miR-K12-4-5p'), ('1960', 'miR-K12-12')]] 
>>> lines2 = {} 
>>> reader = csv.reader(list2, delimiter='\t') 
>>> for row in reader: 
...  lines2.setdefault(row[0], []).append(row[1]) 
... 
>>> lines2 
{'1482': ['miR-K12-1'], '1960': ['miR-K12-12'], '1018': ['miR-K12-4-5p']} 
>>> reader = csv.reader(list1, delimiter='\t') 
>>> for row in reader: 
...  row += lines2.get(row[0], []) 
...  print row 
... 
['1960', 'chr17', '+', 'RNF213', 'miR-K12-12'] 
['1963', 'chr16', '+', 'SF3B3'] 
['1964', 'chr4', '-', 'GPRIN3']

來源

2014-09-04 15:53:48

編輯：請不要使用此方法。雖然有人可能會從@ Martijn的評論中學習，但我仍然留下它。

list1 = [('1960', 'chr17', '+', 'RNF213'), ('1963', 'chr16', '+', 'SF3B3'), ('1964', 'chr4', '-', 'GPRIN3')] 
list2 = [('1482', 'miR-K12-1'), ('1018', 'miR-K12-4-5p'), ('1960', 'miR-K12-12')] 

results = [] 
for x in list1: 
    for y in list2: 
     if x[0] == y[0]: 
      results.append(x + (y[-1],)) 
print results 
>>> 
[('1960', 'chr17', '+', 'RNF213', 'miR-K12-12')]

來源

2014-09-04 15:59:49 chishaku

這樣做**的方式太多工作**。這需要M * N個循環（其中M和N是兩個列表的大小）。使用字典爲您提供M + N解決方案;例如每個列表循環*一次*。 – 2014-09-04 16:00:57

如果list1的長度爲10,000個元素，而列表2的元素爲5,000個，那麼您的版本需要5000萬次迭代。我的只有15,000。 – 2014-09-04 16:02:04

感謝您的闡述。我有一些舊的代碼去更新！ – chishaku 2014-09-04 16:07:36

從使用python

回答

相關問題