2011-08-27 62 views
1

我有一個相當大的項目要完成,我遇到了一些死路。我想看看這裏的偉大社區是否有任何建議。ConcurrentHashMap的實現和侷限性

我有一個大型的數據集,我試圖構建一個社交圖。數據包含超過950萬個座標映射到Short值。對於ConcurrentHashMap中的鍵值,我使用的是一個字符串,即與兩者之間的','連接的座標。

基本上,我找到了用戶之間共同的組數。我有一個很容易構建的初始hashmap,它將GroupID映射到AvatarID的Vector。這部分運行良好。然後,我有12個線程負責他們自己的一組GroupID和處理(每個groupID中的用戶之間的計數加1),從ConcurrentHashMap完成所有訪問。

經過大約8000組處理後,發生訪問問題。一次只有一條線程看起來很活躍,而且我不確定這是由於大規模還是其他因素。這是一個問題,因爲我有30萬組需要全部處理(及時處理)。

有沒有關於我如何實現這個的任何建議,以及我可以使用的任何快捷方式?我相信讀寫是同等重要的,因爲如果值存在(如果不創建它),然後再添加一個值並寫回,我必須讀取一個座標。

我願意根據需要提供代碼,我只是不知道哪些部分與討論相關。

感謝您的時間, -mojavestorm

進一步解釋:

兩種實現方式及其限制:

1)我有一個HashMap(整數,向量(整數))preMap包含作爲密鑰的GroupID和用戶ID的矢量。線程將GroupID彼此分開並使用每個Vector(Integer)返回,每個線程根據座標(說UserID x和UserID y屬於(短)n個組)將短值存儲到TLongShortHashMap threadMap中,並且每個線程擁有自己的線程映射。座標映射到長整型值。每個線程完成後,每個threadMaps中相應鍵的值將被添加到combinedMap中的同一個鍵上,這將顯示整個系統中多少個組UserID x和UserID y所屬的組。

這個實現的問題是線程之間有很高的重疊,所以會創建過多的short值。例如用戶1和用戶2一起屬於不同的組。線程A和線程B負責它們自己的組範圍,包括用戶1和用戶2所屬的組,因此線程A和線程B在它們的threadMap的副本中存儲座標(1,2)的長值和一個短暫的價值。如果發生過度重疊,則內存要求可能會非常突出。在我的情況下,我分配給Java的所有46GB RAM都會用完,而且速度也很快。

2)在這個實現中使用相同的preMap,給每個線程一個他們負責的用戶座標範圍。每個線程都運行並獲取每個座標,並通過preMap迭代,檢查每個groupID並查看UserID x和UserID y是否屬於從preMap返回的向量。這個實現消除了threadMaps之間會發生的重疊。

問題在於時間。目前該計劃正在以1400年的驚人速度運行。內存使用4GB至15GB左右的波動,但似乎保持「低」。不完全確定它會保持在極限內,但是,我想它會。沒有任何改善對我來說是顯而易見的。

希望這些描述很明確,並有助於洞察我的問題。謝謝。

回答

4

我會讓每個線程處理自己的Map。這意味着每個線程可以相互依賴地工作。一旦線程完成,您可以將所有結果合併。 (或可能結合完成後的結果,但這可能會增加複雜性,但沒有多大優勢)

如果您使用的是short,我將使用像TObjectIntHashMap這樣的集合,這對於處理基元更有效。


在簡單的情況下,必須short座標 公共靜態無效主要(字符串...參數)拋出IOException異常{ INT長度= 10 * 1000 * 1000; int [] x = new int [length]; int [] y = new int [length];

Random rand = new Random(); 
    for (int i = 0; i < length; i++) { 
    x[i] = rand.nextInt(10000) - rand.nextInt(10000); 
    y[i] = rand.nextInt(10000) - rand.nextInt(10000); 
    } 

    countPointsWithLongIntMap(x, y); 
    countPointsWithMap(x, y); 

} 

private static Map<String, Short> countPointsWithMap(int[] x, int[] y) { 
    long start = System.nanoTime(); 
    Map<String, Short> counts = new LinkedHashMap<String, Short>(); 
    for (int i = 0; i < x.length; i++) { 
    String key = x[i] + "," + y[i]; 
    Short s = counts.get(key); 
    if (s == null) 
     counts.put(key, (short) 1); 
    else 
     counts.put(key, (short) (s + 1)); 
    } 
    long time = System.nanoTime() - start; 
    System.out.printf("Took %.3f seconds to use Map<String, Short>%n", time/1e9); 

    return counts; 
} 

private static TIntIntHashMap countPointsWithLongIntMap(int[] x, int[] y) { 
    long start = System.nanoTime(); 
    TIntIntHashMap counts = new TIntIntHashMap(); 
    for (int i = 0; i < x.length; i++) { 
    int key = (x[i] << 16) | (y[i] & 0xFFFF); 
    counts.adjustOrPutValue(key, 1, 1); 
    } 
    long time = System.nanoTime() - start; 
    System.out.printf("Took %.3f seconds to use TIntIntHashMap%n", time/1e9); 
    return counts; 
} 

打印

Took 1.592 seconds to use TIntIntHashMap 
Took 4.889 seconds to use Map<String, Short> 

如果你有雙座標,你需要使用一個兩層的地圖。

public static void main(String... args) throws IOException { 
    int length = 10 * 1000 * 1000; 
    double[] x = new double[length]; 
    double[] y = new double[length]; 

    Random rand = new Random(); 
    for (int i = 0; i < length; i++) { 
    x[i] = (rand.nextInt(10000) - rand.nextInt(10000))/1e4; 
    y[i] = (rand.nextInt(10000) - rand.nextInt(10000))/1e4; 
    } 

    countPointsWithLongIntMap(x, y); 
    countPointsWithMap(x, y); 

} 

private static Map<String, Short> countPointsWithMap(double[] x, double[] y) { 
    long start = System.nanoTime(); 
    Map<String, Short> counts = new LinkedHashMap<String, Short>(); 
    for (int i = 0; i < x.length; i++) { 
    String key = x[i] + "," + y[i]; 
    Short s = counts.get(key); 
    if (s == null) 
     counts.put(key, (short) 1); 
    else 
     counts.put(key, (short) (s + 1)); 
    } 
    long time = System.nanoTime() - start; 
    System.out.printf("Took %.3f seconds to use Map<String, Short>%n", time/1e9); 

    return counts; 
} 

private static TDoubleObjectHashMap<TDoubleIntHashMap> countPointsWithLongIntMap(double[] x, double[] y) { 
    long start = System.nanoTime(); 
    TDoubleObjectHashMap<TDoubleIntHashMap> counts = new TDoubleObjectHashMap<TDoubleIntHashMap>(); 
    for (int i = 0; i < x.length; i++) { 
    TDoubleIntHashMap map = counts.get(x[i]); 
    if (map == null) 
     counts.put(x[i], map = new TDoubleIntHashMap()); 
    map.adjustOrPutValue(y[i], 1, 1); 
    } 
    long time = System.nanoTime() - start; 
    System.out.printf("Took %.3f seconds to use TDoubleObjectHashMap<TDoubleIntHashMap>%n", time/1e9); 
    return counts; 
} 

打印

Took 3.023 seconds to use TDoubleObjectHashMap<TDoubleIntHashMap> 
Took 7.970 seconds to use Map<String, Short> 
+0

很好,謝謝你的建議。我現在將執行此操作並回復給您。我想我最初以爲在試圖將所有的HashMaps結合在一起時你會做同樣的工作,但是在處理線程時它可能會更好,這對我來說並不專業。 –

+1

操作次數相同,但每個CPU都有自己的緩存,本地Map可以使用該緩存。如果你有一個共享映射,它將在最慢的緩存中(最好) –

+1

我還會看到你是否可以避免使用String作爲關鍵字,因爲這可能比使用long和TLongIntHashMap長10-100倍。 –