乘以SparseVectors元素明智

我有2RDD，我想在這兩個rdd之間乘以元素。乘以SparseVectors元素明智

比方說，我有以下RDD（例如）：

a = ((1,[0.28,1,0.55]),(2,[0.28,1,0.55]),(3,[0.28,1,0.55])) 
aRDD = sc.parallelize(a) 
b = ((1,[0.28,0,0]),(2,[0,0,0]),(3,[0,1,0])) 
bRDD = sc.parallelize(b)

可以看出，b是稀疏的，我想避免乘零值與另一個值。我做了以下情況：

from pyspark.mllib.linalg import Vectors 
def create_sparce_matrix(a_list): 
    length = len(a_list) 
    index = [i for i ,e in enumerate(a_list) if e !=0] 
    value = [e for i ,e in enumerate(a_list) if e !=0] 
    sv1 = Vectors.sparse(length,index,value) 
    return sv1 


brdd = b.map(lambda (ids,a_list):(ids,create_sparce_matrix(a_list)))

和乘法：

combinedRDD = ardd + brdd 
result = combinedRDD.reduceByKey(lambda a,b:[c*d for c,d in zip(a,b)])

看來我不能繁殖的sparce在RDD列表。有沒有辦法做到這一點？或者當兩個RDD中的一個具有很多零值時，用另一種有效的方法來乘以元素？你可以處理這個

來源

2016-02-12 Mpizos Dimitris

一種方法是轉換aRDD到RDD[DenseVector]：

from pyspark.mllib.linalg import SparseVector, DenseVector, Vectors 

aRDD = sc.parallelize(a).mapValues(DenseVector) 
bRDD = sc.parallelize(b).mapValues(create_sparce_matrix)

和使用基本NumPy的操作：

def mul(x, y): 
    assert isinstance(x, DenseVector) 
    assert isinstance(y, SparseVector) 
    assert x.size == y.size 
    return SparseVector(y.size, y.indices, x[y.indices] * y.values) 

aRDD.join(bRDD).mapValues(lambda xy: mul(*xy))

來源

2016-02-12 13:49:46 zero323

乘以SparseVectors元素明智

回答

相關問題