有效比較列表中的兩個大列表的每個列表中的第一項？

我目前正在處理大量的清單（〜280k清單）和較小的清單（~3.5k清單）。我試圖有效地比較小列表中的第一個索引與大列表中的第一個索引。如果它們匹配，我想要返回具有匹配的第一個索引的小列表和大列表中的兩個列表。有效比較列表中的兩個大列表的每個列表中的第一項？

例如：

大列表1：

[[a,b,c,d],[e,f,g,h],[i,j,k,l],[m,n,o,p]]

較小目錄2：

[[e,q,r,s],[a,t,w,s]]

將返回

[([e,q,r,s],[e,f,g,h]),([a,t,w,s],[a,b,c,d])]

我現在有它設置如下圖所示，其中al元組ist通過每個元組持有兩個具有匹配的第一個元素的列表返回。我很好，正在使用任何其他數據結構。我試圖使用一組元組，但遇到了問題，試圖找出如何更快地完成這項工作。

我的代碼比較列表這些兩個列表是目前這樣的：

match = [] 
for list_one in small_list: 
    for list_two in large_list: 
     if str(list_one[0]).lower() in str(list_two[0]).lower(): 
      match.append((spm_values, cucm_values)) 
      break 
return match

來源

2016-07-14 KoolAid

當其中一個列表中有多個子列表以相同的值開始時會發生什麼？或者這是不可能的 –

在這種情況下不會發生 - 第一個元素是MAC地址。 – KoolAid

首先，'in'運算符不是檢查等式的正確方法，您應該使用'=='來達到這個目的。其次你爲什麼要把第一個項目轉換爲'str'？ – Kasramvd

假設順序並不重要，我會強烈建議使用字典映射前綴（一個字符）項和set找到匹配：

# generation of data... not important 
>>> lst1 = [list(c) for c in ["abcd", "efgh", "ijkl", "mnop"]] 
>>> lst2 = [list(c) for c in ["eqrs", "atws"]] 

# mapping prefix to list (assuming uniqueness) 
>>> by_prefix1 = {chars[0]: chars for chars in lst1} 
>>> by_prefix2 = {chars[0]: chars for chars in lst2} 

# actually finding matches by intersecting sets (fast) 
>>> common = set(by_prefix1.keys()) & set(by_prefix2.keys()) 
>>> tuples = tuple(((by_prefix1[k], by_prefix2[k]) for k in common)) 
>>> tuples

來源

2016-07-14 18:51:19

你打敗了我：P – Brian

由於某種原因，當爲大列表映射前綴到列表（by_prefix2）時，它會丟失大約60k條目 – KoolAid

我的猜測是前綴不是唯一的，這導致它只保留最後一個值。 –

-1

我實際使用Python 2.7.11

，但我想這可能工作。

l1 =[['a','b','c','d'],['e','f','g','h'],['i','j','k','l'],['m','n','o','p']] 
l2 =[['e','q','r','s'],['a','t','w','s']] 

def org(Smalllist,Largelist): 
    L = Largelist 
    S = Smalllist 
    Final = [] 
    for i in range(len(S)): 
     for j in range(len(L)): 
      if S[i][0] == L[j][0]: 
       Final.append((S[i],L[j])) 
    return Final

我建議你把小名單中的第一個變量，以獲得您所期望的順序結果。

像我一樣，在測試時輸入這些字母作爲字符串是非常重要的，否則它們可能會被視爲變量，代碼將無法正常運行。

來源

2016-07-14 18:49:00 Pedro

這裏有一個襯墊使用列表理解。但我不確定它的效率如何。

large = [list(c) for c in ["abcd", "efgh", "ijkl", "mnop"]] 
small = [list(c) for c in ["eqrs", "atws"]] 
ret = [(x,y) for x in large for y in small if x[0] == y[0]] 

print ret 
#output 
[(['a', 'b', 'c', 'd'], ['a', 't', 'w', 's']), (['e', 'f', 'g', 'h'], ['e', 'q', 'r', 's'])]

來源

2016-07-14 19:04:54 Jeremy

這比@Reut Sharabani的回答效率稍低，因爲你的理解是O（X * Y），而他會是O（（X + Y）log（X * Y）），因爲集合數學和字典 – Brian

有效比較列表中的兩個大列表的每個列表中的第一項？

回答

相關問題