如何提高Python中的大型列表的性能

我有一個龐大的列表，說1000萬整數（排序）「alist」。我需要的是讓一些整數（來自「blist」）和列表中的鄰居之間的距離最小。我通過查找整我找的位置做了，之前和之後獲得該項目，並測量差異：如何提高Python中的大型列表的性能

alist=[1, 4, 30, 1000, 2000] #~10 million integers 
blist=[4, 30, 1000] #~8 million integers 

for b in blist: 
    position=alist.index(b) 
    distance=min([b-alist[position-1],alist[position+1]-b])

這種操作要重複數百次，不幸的是，它發生在年齡我機。有沒有一種方法來提高此代碼的性能？我使用Python 2.6和python 3不是一個選項。

來源

2016-07-29 Andy S. C.

有什麼理由你使用Python進行密集一個CPU操作？你可以用C重寫那部分代碼並將其與Python接口嗎？ –

您在個人計算機上使用Python 2.6，使用**內存**列表（10^7），使用內置方法執行O（n）操作**數百萬次**沒有任何算法優化。究竟是什麼樣的表現？ –

@VincentSavard說了些什麼。另外，它聽起來像你可以矢量化你的算法並使用numpy，以便實際的代碼運行在非常聰明的C/Fortran代碼中。向量'v'（其中'type（v）== np.array'）中的每個值與其相鄰元素之間的最小距離由np.amin（v [1：] - v [： - 1]）給出' 。將它適應於你正在嘗試做的任何事情。 –

我真的很喜歡這種計算的Numpy模塊。

在你的情況，這將是（這是很長的答案，可以工廠化更有效率）：

import numpy as np 

alist = [1, 4, 30, 1000, 2000] 
blist = [4, 30, 1000] 

a_array = np.asarray(alist) 
b_array = np.asarray(blist) 

a_index = np.searchsorted(a_array, b_array) # gives the indexes of the elements of b_array in a_array 

a_array_left = a_array[a_index - 1] 
a_array_right = a_array[a_index + 1] 

distance_left = np.abs(b_array - a_array_left) 
distance_right = np.abs(a_array_right - b_array) 

min_distance = np.min([distance_left, distance_right], axis=0)

如果blist的第一個元素是第一ALIST的它不會工作，同樣的結局。我猜：

alist = [b[0] - 1] + alist + [b[-1] + 1]

是一個骯髒的解決方法。

基準
的「仍在運行」可能我在我的電腦的錯..

alist = sorted(list(np.random.randint(0, 10000, 10000000))) 
blist = sorted(list(alist[1000000:9000001])) 
a_array = np.asarray(alist) 
b_array = np.asarray(blist)

矢量化解決方案

%%timeit 
a_index = np.searchsorted(a_array, b_array) 

a_array_left = a_array[a_index - 1] 
a_array_right = a_array[a_index + 1] 

min_distance = np.min([b_array - a_array_left, a_array_right - b_array], axis=0) 
1 loop, best of 3: 591 ms per loop

二進制搜索解決方案

%%timeit 
for b in blist: 
    position = bisect.bisect_left(alist, b) 
    distance = min([b-alist[position-1],alist[position+1]-b]) 
Still running..

Ø普的解決方案

%%timeit 
for b in blist: 
    position=alist.index(b) 
    distance=min([b-alist[position-1],alist[position+1]-b]) 
Still running..

較小的輸入

alist = sorted(list(np.random.randint(0, 10000, 1000000))) 
blist = sorted(list(alist[100000:900001])) 
a_array = np.asarray(alist) 
b_array = np.asarray(blist)

矢量化解決方案

%%timeit 
a_index = np.searchsorted(a_array, b_array) 

a_array_left = a_array[a_index - 1] 
a_array_right = a_array[a_index + 1] 

min_distance = np.min([b_array - a_array_left, a_array_right - b_array], axis=0) 
10 loops, best of 3: 53.2 ms per loop

二進制搜索解決方案

OP的soluti在

%%timeit 
for b in blist: 
    position=alist.index(b) 
    distance=min([b-alist[position-1],alist[position+1]-b]) 
Still running..

來源

2016-07-29 13:05:01 Jacquot

請不要顯示誤導的基準。分別使用1000萬和800萬個元素。 –

** alist必須排序！**你的基準是無用的，因爲'alist'沒有排序！ – Bakuriu

在你的基準測試中，你應該用'alist = sorted（list（range（1000））* 10000）'alist = [1,4,30,1000,2000] * 10000'' – Bakuriu

我建議使用二進制搜索。使其更快，不花費額外的內存，並且只需要稍微改變。而不是alist.index(b)，只需使用bisect_left(alist, b)。

如果您blist被分類爲好，你也可以用一個很簡單的漸進式搜索，沒有從alist開始，但是從以前b的索引搜索當前b。

與的基準Python 2.7。11所並列出包含10萬個，800萬整數：

389700.01 seconds Andy_original (time estimated) 
377100.01 seconds Andy_no_lists (time estimated) 
    6.30 seconds Stefan_binary_search 
    2.15 seconds Stefan_incremental_search 
    3.57 seconds Stefan_incremental_search2 
    1.21 seconds Jacquot_NumPy 
    (0.74 seconds Stefan_only_search_no_distance)

安迪的原件將需要約4.5天，所以我只用了blist每10個條目，並擴大規模。二進制搜索速度更快，增量搜索速度更快，NumPy擊敗所有，儘管它們都只需要幾秒鐘。

以0.74秒爲單位的最後一項是我的增量搜索，沒有distance = min(...)行，所以它不具有可比性。但它表明，搜索只需要總共2.15秒中的34％。所以我沒有更多的工作可做，因爲大部分時間distance = min(...)計算是負責任的。

與Python的結果3.5.1是相似的：

509819.56 seconds Andy_original (time estimated) 
505257.32 seconds Andy_no_lists (time estimated) 
    8.35 seconds Stefan_binary_search 
    4.61 seconds Stefan_incremental_search 
    4.53 seconds Stefan_incremental_search2 
    1.39 seconds Jacquot_NumPy 
    (1.45 seconds Stefan_only_search_no_distance)

與所有版本和測試的完整代碼：

def Andy_original(alist, blist): 
    for b in blist: 
     position = alist.index(b) 
     distance = min([b-alist[position-1], alist[position+1]-b]) 

def Andy_no_lists(alist, blist): 
    for b in blist: 
     position = alist.index(b) 
     distance = min(b-alist[position-1], alist[position+1]-b) 

from bisect import bisect_left 
def Stefan_binary_search(alist, blist): 
    for b in blist: 
     position = bisect_left(alist, b) 
     distance = min(b-alist[position-1], alist[position+1]-b) 

def Stefan_incremental_search(alist, blist): 
    position = 0 
    for b in blist: 
     while alist[position] < b: 
      position += 1 
     distance = min(b-alist[position-1], alist[position+1]-b) 

def Stefan_incremental_search2(alist, blist): 
    position = 0 
    for b in blist: 
     position = alist.index(b, position) 
     distance = min(b-alist[position-1], alist[position+1]-b) 

import numpy as np 
def Jacquot_NumPy(alist, blist): 

    a_array = np.asarray(alist) 
    b_array = np.asarray(blist) 

    a_index = np.searchsorted(a_array, b_array) # gives the indexes of the elements of b_array in a_array 

    a_array_left = a_array[a_index - 1] 
    a_array_right = a_array[a_index + 1] 

    distance_left = np.abs(b_array - a_array_left) 
    distance_right = np.abs(a_array_right - b_array) 

    min_distance = np.min([distance_left, distance_right], axis=0) 

def Stefan_only_search_no_distance(alist, blist): 
    position = 0 
    for b in blist: 
     while alist[position] < b: 
      position += 1 

from time import time 
alist = list(range(10000000)) 
blist = [i for i in alist[1:-1] if i % 5] 
blist_small = blist[::100000] 

for func in Andy_original, Andy_no_lists: 
    t0 = time() 
    func(alist, blist_small) 
    t = time() - t0 
    print('%9.2f seconds %s (time estimated)' % (t * 100000, func.__name__)) 

for func in Stefan_binary_search, Stefan_incremental_search, Stefan_incremental_search2, Jacquot_NumPy, Stefan_only_search_no_distance: 
    t0 = time() 
    func(alist, blist) 
    t = time() - t0 
    print('%9.2f seconds %s' % (t, func.__name__))

來源

2016-07-29 13:17:26

你只是打敗了我。 –

@Jacquot 1）你的numpy解決方案仍然是O（n^2），並且*將會比較大陣列變慢2）你測試了哪種尺寸？僅在大尺寸時平分速度更快......您無法採用4個元素的OP樣本輸入來測試性能。生成10萬和800萬列表，然後用這些列表進行配置。 – Bakuriu

更新我的基準（和我的解決方案誰不完全正確）;把時間除以10;但最終，我正在使用的只是一個向量化的Cython實現的二進制搜索版本;）如果您嘗試使用我的最後一個解決方案進行基準測試，則會很高興:) – Jacquot

如何提高Python中的大型列表的性能

回答

相關問題