使用熊貓尋找每一行的最小距離

我試圖匹配不同細菌的DNA螺旋與祖先，我有大約100萬觀察值。我想確定每個細菌的最接近的祖先，即我想將它們與相同或老一代（相等或更小的世代）進行比較，所以我的數據框看起來像這樣（爲了簡單起見，我們假設DNA矢量由一個數組成）：使用熊貓尋找每一行的最小距離

bacteria_id generation DNA_vector 
213   230  23 
254   230  18 
256   229  39 
289   229  16 
310   228  24 
324   228  45

我試圖創建一個矩陣，並選擇從該矩陣的每個細菌的最小值，但因爲這將包括大量的行和列的，我得到memory error創建矩陣之前。我們假設它不是細菌，而是汽車，我將每輛車與自己的一代進行比較（例如2010年推出的汽車）和舊車。還可以將DNA_vector更改爲多個功能。如果功能數量之間的差異較小，我會認爲它與其他汽車更相似。所以我想創建兩個額外的列。第一個會告訴最小差異（例如，對於第一個將是1，而最相似的汽車將是310型）

預期成果是：

bacteria_id generation DNA_vector most_similar_bacteria distance 
213   230  23    310    1 (i.e. 24 -23) 
254   230  18    289    2 
256   229  39    324    6     
289   229  16    228    8 
310   228  24    324    19 
324   228  45    NA    NA

你有什麼建議？

來源

2017-10-12 Dogukan Yılmaz

請您刪除所有對遺傳學的參考，並在廣泛的主題提出這個問題？當你不知道你想使用什麼比較時，很難理解這個問題 – Keith

好吧，我將簡化它 –

現在更清楚了嗎？ –