Java集合---ConcurrentHashMap原理分析

Yangyang 發布于2019-08-15 12:30 / 2967人閱讀

摘要：再哈希，其目的是為了減少哈希沖突，使元素能夠均勻的分布在不同的上，從而提高容器的存取效率。我們再把上面的二進制數據進行再哈希后結果如下，為了方便閱讀，不足位的高位補了，每隔四位用豎線分割下。通過以下哈希算法定位。

哪有什么天生如此只是我們天天堅持。

一、背景 線程不安全的HashMap

因為多線程環境下，使用Hashmap進行put操作會引起死循環，導致CPU利用率接近100%，所以在并發情況下不能使用HashMap。

效率低下的HashTable容器

HashTable容器使用synchronized來保證線程安全，但在線程競爭激烈的情況下HashTable的效率非常低下。因為當一個線程訪問HashTable的同步方法時，其他線程訪問HashTable的同步方法時，可能會進入阻塞或輪詢狀態。如線程1使用put進行添加元素，線程2不但不能使用put方法添加元素，并且也不能使用get方法來獲取元素，所以競爭越激烈效率越低。

鎖分段技術

HashTable容器在競爭激烈的并發環境下表現出效率低下的原因，是因為所有訪問HashTable的線程都必須競爭同一把鎖，那假如容器里有多把鎖，每一把鎖用于鎖容器其中一部分數據，那么當多線程訪問容器里不同數據段的數據時，線程間就不會存在鎖競爭，從而可以有效的提高并發訪問效率，
這就是ConcurrentHashMap所使用的鎖分段技術，首先將數據分成一段一段的存儲，然后給每一段數據配一把鎖，當一個線程占用鎖訪問其中一個段數據的時候，其他段的數據也能被其他線程訪問。有些方法需要跨段，比如size()和containsValue()，它們可能需要鎖定整個表而而不僅僅是某個段，這需要按順序鎖定所有段，操作完畢后，又按順序釋放所有段的鎖。這里“按順序”是很重要的，否則極有可能出現死鎖，在ConcurrentHashMap內部，段數組是final的，并且其成員變量實際上也是final的，但是，僅僅是將數組聲明為final的并不保證數組成員也是final的，這需要實現上的保證。這可以確保不會出現死鎖，因為獲得鎖的順序是固定的。

oncurrentHashMap是由Segment數組結構和HashEntry數組結構組成。Segment是一種可重入鎖ReentrantLock，在ConcurrentHashMap里扮演鎖的角色，HashEntry則用于存儲鍵值對數據。一個ConcurrentHashMap里包含一個Segment數組，Segment的結構和HashMap類似，是一種數組和鏈表結構，一個Segment里包含一個HashEntry數組，每個HashEntry是一個鏈表結構的元素，每個Segment守護者一個HashEntry數組里的元素,當對HashEntry數組的數據進行修改時，必須首先獲得它對應的Segment鎖。

二、應用場景

當有一個大數組時需要在多個線程共享時就可以考慮是否把它給分層多個節點了，避免大鎖。并可以考慮通過hash算法進行一些模塊定位。
其實不止用于線程，當設計數據表的事務時（事務某種意義上也是同步機制的體現），可以把一個表看成一個需要同步的數組，如果操作的表數據太多時就可以考慮事務分離了（這也是為什么要避免大表的出現），比如把數據進行字段拆分，水平分表等.

三、源碼解讀

ConcurrentHashMap(1.7及之前)中主要實體類就是三個：ConcurrentHashMap（整個Hash表）,Segment（桶），HashEntry（節點），對應上面的圖可以看出之間的關系

/** 
* The segments, each of which is a specialized hash table 
*/  
final Segment[] segments;

不變(Immutable)和易變(Volatile)

ConcurrentHashMap完全允許多個讀操作并發進行，讀操作并不需要加鎖。如果使用傳統的技術，如HashMap中的實現，如果允許可以在hash鏈的中間添加或刪除元素，讀操作不加鎖將得到不一致的數據。ConcurrentHashMap實現技術是保證HashEntry幾乎是不可變的。HashEntry代表每個hash鏈中的一個節點，其結構如下所示：

 static final class HashEntry {  
     final K key;  
     final int hash;  
     volatile V value;  
     final HashEntry next;  
 }

可以看到除了value不是final的，其它值都是final的，這意味著不能從hash鏈的中間或尾部添加或刪除節點，因為這需要修改next 引用值，所有的節點的修改只能從頭部開始。
對于put操作，可以一律添加到Hash鏈的頭部。
但是對于remove操作，可能需要從中間刪除一個節點，這就需要將要刪除節點的前面所有節點整個復制一遍，最后一個節點指向要刪除結點的下一個結點。這在講解刪除操作時還會詳述。為了確保讀操作能夠看到最新的值，將value設置成volatile，這避免了加鎖。

其它

為了加快定位段以及段中hash槽的速度，每個段hash槽的的個數都是2^n，這使得通過位運算就可以定位段和段中hash槽的位置。當并發級別為默認值16時，也就是段的個數，hash值的高4位決定分配在哪個段中。但是我們也不要忘記《算法導論》給我們的教訓：hash槽的的個數不應該是 2^n，這可能導致hash槽分配不均，這需要對hash值重新再hash一次。（這段似乎有點多余了）

定位操作：

final Segment segmentFor(int hash) {  
     return segments[(hash >>> segmentShift) & segmentMask];  
 }

既然ConcurrentHashMap使用分段鎖Segment來保護不同段的數據，那么在插入和獲取元素的時候，必須先通過哈希算法定位到Segment。可以看到ConcurrentHashMap會首先使用Wang/Jenkins hash的變種算法對元素的hashCode進行一次再哈希。
再哈希，其目的是為了減少哈希沖突，使元素能夠均勻的分布在不同的Segment上，從而提高容器的存取效率。假如哈希的質量差到極點，那么所有的元素都在一個Segment中，不僅存取元素緩慢，分段鎖也會失去意義。我做了一個測試，不通過再哈希而直接執行哈希計算:

System.out.println(Integer.parseInt("0001111", 2) & 15);
System.out.println(Integer.parseInt("0011111", 2) & 15);
System.out.println(Integer.parseInt("0111111", 2) & 15);
System.out.println(Integer.parseInt("1111111", 2) & 15);

計算后輸出的哈希值全是15，通過這個例子可以發現如果不進行再哈希，哈希沖突會非常嚴重，因為只要低位一樣，無論高位是什么數，其哈希值總是一樣。我們再把上面的二進制數據進行再哈希后結果如下，為了方便閱讀，不足32位的高位補了0，每隔四位用豎線分割下。

0100｜0111｜0110｜0111｜1101｜1010｜0100｜1110
1111｜0111｜0100｜0011｜0000｜0001｜1011｜1000
0111｜0111｜0110｜1001｜0100｜0110｜0011｜1110
1000｜0011｜0000｜0000｜1100｜1000｜0001｜1010

可以發現每一位的數據都散列開了，通過這種再哈希能讓數字的每一位都能參加到哈希運算當中，從而減少哈希沖突。ConcurrentHashMap通過以下哈希算法定位segment。
默認情況下segmentShift為28，segmentMask為15，再哈希后的數最大是32位二進制數據，向右無符號移動28位，意思是讓高4位參與到hash運算中， (hash >>> segmentShift) & segmentMask的運算結果分別是4，15，7和8，可以看到hash值沒有發生沖突。

final Segment segmentFor(int hash) {
    return segments[(hash >>> segmentShift) & segmentMask];
}

數據結構

所有的成員都是final的，其中segmentMask和segmentShift主要是為了定位段，參見上面的segmentFor方法。
關于Hash表的基礎數據結構，這里不想做過多的探討。
Hash表的一個很重要方面就是如何解決hash沖突，ConcurrentHashMap 和HashMap使用相同的方式，都是將hash值相同的節點放在一個hash鏈中。與HashMap不同的是，ConcurrentHashMap使用多個子Hash表，也就是段(Segment)。
每個Segment相當于一個子Hash表，它的數據成員如下：

static final class Segment extends ReentrantLock implements Serializable {    
         /** 
          * The number of elements in this segment"s region. 
          */
         transient volatileint count;  
         /** 
          * Number of updates that alter the size of the table. This is 
          * used during bulk-read methods to make sure they see a 
          * consistent snapshot: If modCounts change during a traversal 
          * of segments computing size or checking containsValue, then 
          * we might have an inconsistent view of state so (usually) 
          * must retry. 
          */
         transient int modCount;  
         /** 
          * The table is rehashed when its size exceeds this threshold. 
          * (The value of this field is always (int)(capacity * 
          * loadFactor).) 
          */
         transient int threshold;  
         /** 
          * The per-segment table. 
          */
         transient volatile HashEntry[] table;  
         /** 
          * The load factor for the hash table.  Even though this value 
          * is same for all segments, it is replicated to avoid needing 
          * links to outer object. 
          * @serial 
          */
         final float loadFactor;  
 }

　count用來統計該段數據的個數，它是volatile，它用來協調修改和讀取操作，以保證讀取操作能夠讀取到幾乎最新的修改。
協調方式是這樣的，每次修改操作做了結構上的改變，如增加/刪除節點(修改節點的值不算結構上的改變)，都要寫count值，每次讀取操作開始都要讀取count的值。
這利用了 Java 5中對volatile語義的增強，對同一個volatile變量的寫和讀存在happens-before關系。
modCount統計段結構改變的次數，主要是為了檢測對多個段進行遍歷過程中某個段是否發生改變，在講述跨段操作時會還會詳述。
threashold用來表示需要進行rehash的界限值。
table數組存儲段中節點，每個數組元素是個hash鏈，用HashEntry表示。table也是volatile，這使得能夠讀取到最新的 table值而不需要同步。loadFactor表示負載因子。

刪除操作remove(key)

public V remove(Object key) {  
   hash = hash(key.hashCode());   
   return segmentFor(hash).remove(key, hash, null);   
}

整個操作是先定位到段，然后委托給段的remove操作。當多個刪除操作并發進行時，只要它們所在的段不相同，它們就可以同時進行。
下面是Segment的remove方法實現：

V remove(Object key, int hash, Object value) {  
     lock();  
     try {  
         int c = count - 1;  
         HashEntry[] tab = table;  
         int index = hash & (tab.length - 1);  
         HashEntry first = tab[index];  
         HashEntry e = first;  
         while (e != null && (e.hash != hash || !key.equals(e.key)))  
             e = e.next;  
         V oldValue = null;  
         if (e != null) {  
             V v = e.value;  
             if (value == null || value.equals(v)) {  
                 oldValue = v;  

                 // All entries following removed node can stay  
                 // in list, but all preceding ones need to be  
                 // cloned.  
                 ++modCount;  
                 HashEntry newFirst = e.next;  
                 *for (HashEntry p = first; p != e; p = p.next)  
                     *newFirst = new HashEntry(p.key, p.hash,  
                                                   newFirst, p.value);  
                 tab[index] = newFirst;  
                 count = c; // write-volatile  
             }  
         }  
         return oldValue;  
     } finally {  
         unlock();  
     }  
 }

整個操作是在持有段鎖的情況下執行的，空白行之前的行主要是定位到要刪除的節點e。
接下來，如果不存在這個節點就直接返回null，否則就要將e前面的結點復制一遍，尾結點指向e的下一個結點。
e后面的結點不需要復制，它們可以重用。
中間那個for循環是做什么用的呢？（*號標記）從代碼來看，就是將定位之后的所有entry克隆并拼回前面去，但有必要嗎？每次刪除一個元素就要將那之前的元素克隆一遍？這點其實是由entry的不變性來決定的，仔細觀察entry定義，發現除了value，其他所有屬性都是用final來修飾的，這意味著在第一次設置了next域之后便不能再改變它，取而代之的是將它之前的節點全都克隆一次。至于entry為什么要設置為不變性，這跟不變性的訪問不需要同步從而節省時間有關
下面是個示意圖:

刪除元素之前：

刪除元素3之后：

第二個圖其實有點問題，復制的結點中應該是值為2的結點在前面，值為1的結點在后面，也就是剛好和原來結點順序相反，還好這不影響我們的討論。
整個remove實現并不復雜，但是需要注意如下幾點。

第一當要刪除的結點存在時，刪除的最后一步操作要將count的值減一。這必須是最后一步操作，否則讀取操作可能看不到之前對段所做的結構性修改。

第二，remove執行的開始就將table賦給一個局部變量tab，這是因為table是 volatile變量，讀寫volatile變量的開銷很大。編譯器也不能對volatile變量的讀寫做任何優化，直接多次訪問非volatile實例變量沒有多大影響，編譯器會做相應優化。

，
`

get操作

ConcurrentHashMap的get操作是直接委托給Segment的get方法，直接看Segment的get方法：

V get(Object key, int hash) {  
     if (count != 0) { // read-volatile 當前桶的數據個數是否為0 
         HashEntry e = getFirst(hash);  得到頭節點
         while (e != null) {  
             if (e.hash == hash && key.equals(e.key)) {  
                 V v = e.value;  
                 if (v != null)  
                     return v;  
                 return readValueUnderLock(e); // recheck  
             }  
             e = e.next;  
         }  
     }  
     returnnull;  
 }

get操作不需要鎖。
　　除非讀到的值是空的才會加鎖重讀，我們知道HashTable容器的get方法是需要加鎖的，那么ConcurrentHashMap的get操作是如何做到不加鎖的呢？原因是它的get方法里將要使用的共享變量都定義成volatile

　　第一步是訪問count變量，這是一個volatile變量，由于所有的修改操作在進行結構修改時都會在最后一步寫count 變量，通過這種機制保證get操作能夠得到幾乎最新的結構更新。對于非結構更新，也就是結點值的改變，由于HashEntry的value變量是 volatile的，也能保證讀取到最新的值。

　　接下來就是根據hash和key對hash鏈進行遍歷找到要獲取的結點，如果沒有找到，直接訪回null。對hash鏈進行遍歷不需要加鎖的原因在于鏈指針next是final的。但是頭指針卻不是final的，這是通過getFirst(hash)方法返回，也就是存在 table數組中的值。這使得getFirst(hash)可能返回過時的頭結點，例如，當執行get方法時，剛執行完getFirst(hash)之后，另一個線程執行了刪除操作并更新頭結點，這就導致get方法中返回的頭結點不是最新的。這是可以允許，通過對count變量的協調機制，get能讀取到幾乎最新的數據，雖然可能不是最新的。要得到最新的數據，只有采用完全的同步。

　　最后，如果找到了所求的結點，判斷它的值如果非空就直接返回，否則在有鎖的狀態下再讀一次。這似乎有些費解，理論上結點的值不可能為空，這是因為 put的時候就進行了判斷，如果為空就要拋NullPointerException。空值的唯一源頭就是HashEntry中的默認值，因為 HashEntry中的value不是final的，非同步讀取有可能讀取到空值。仔細看下put操作的語句：tab[index] = new HashEntry(key, hash, first, value)，在這條語句中，HashEntry構造函數中對value的賦值以及對tab[index]的賦值可能被重新排序，這就可能導致結點的值為空。這里當v為空時，可能是一個線程正在改變節點，而之前的get操作都未進行鎖定，根據bernstein條件，讀后寫或寫后讀都會引起數據的不一致，所以這里要對這個e重新上鎖再讀一遍，以保證得到的是正確值。

V readValueUnderLock(HashEntry e) {  
     lock();  
     try {  
         return e.value;  
     } finally {  
         unlock();  
     }  
 }

如用于統計當前Segement大小的count字段和用于存儲值的HashEntry的value。定義成volatile的變量，能夠在線程之間保持可見性，能夠被多線程同時讀，并且保證不會讀到過期的值，但是只能被單線程寫（有一種情況可以被多線程寫，就是寫入的值不依賴于原值），在get操作里只需要讀不需要寫共享變量count和value，所以可以不用加鎖。之所以不會讀到過期的值，是根據java內存模型的happen before原則，對volatile字段的寫入操作先于讀操作，即使兩個線程同時修改和獲取volatile變量，get操作也能拿到最新的值，這是用volatile替換鎖的經典應用場景

put操作

同樣地put操作也是委托給段的put方法。下面是段的put方法：

V put(K key, int hash, V value, boolean onlyIfAbsent) {  
     lock();  
     try {  
         int c = count;  
         if (c++ > threshold) // ensure capacity  
             rehash();  
         HashEntry[] tab = table;  
         int index = hash & (tab.length - 1);  
         HashEntry first = tab[index];  
         HashEntry e = first;  
         while (e != null && (e.hash != hash || !key.equals(e.key)))  
             e = e.next;  
         V oldValue;  
         if (e != null) {  
             oldValue = e.value;  
             if (!onlyIfAbsent)  
                 e.value = value;  
         }  
         else {  
             oldValue = null;  
             ++modCount;  
             tab[index] = new HashEntry(key, hash, first, value);  
             count = c; // write-volatile  
         }  
         return oldValue;  
     } finally {  
         unlock();  
     }  
 }

　　該方法也是在持有段鎖(鎖定整個segment)的情況下執行的，這當然是為了并發的安全，修改數據是不能并發進行的，必須得有個判斷是否超限的語句以確保容量不足時能夠rehash。
接著是找是否存在同樣一個key的結點，如果存在就直接替換這個結點的值。否則創建一個新的結點并添加到hash鏈的頭部，這時一定要修改modCount和count的值，同樣修改count的值一定要放在最后一步。put方法調用了rehash方法，reash方法實現得也很精巧，主要利用了table的大小為2^n，這里就不介紹了。
而比較難懂的是這句int index = hash & (tab.length - 1)，原來segment里面才是真正的hashtable，即每個segment是一個傳統意義上的hashtable,如上圖，從兩者的結構就可以看出區別，這里就是找出需要的entry在table的哪一個位置，之后得到的entry就是這個鏈的第一個節點，如果e!=null，說明找到了，這是就要替換節點的值（onlyIfAbsent == false），否則，我們需要new一個entry，它的后繼是first，而讓tab[index]指向它，什么意思呢？實際上就是將這個新entry插入到鏈頭，剩下的就非常容易理解了

　　由于put方法里需要對共享變量進行寫入操作，所以為了線程安全，在操作共享變量時必須得加鎖。
Put方法首先定位到Segment，然后在Segment里進行插入操作。插入操作需要經歷兩個步驟，第一步判斷是否需要對Segment里的HashEntry數組進行擴容，第二步定位添加元素的位置然后放在HashEntry數組里。
是否需要擴容。在插入元素前會先判斷Segment里的HashEntry數組是否超過容量（threshold），如果超過閥值，數組進行擴容。值得一提的是，Segment的擴容判斷比HashMap更恰當，因為HashMap是在插入元素后判斷元素是否已經到達容量的，如果到達了就進行擴容，但是很有可能擴容之后沒有新元素插入，這時HashMap就進行了一次無效的擴容。
`如何擴容?擴容的時候首先會創建一個兩倍于原容量的數組，然后將原數組里的元素進行再hash后插入到新的數組里。為了高效ConcurrentHashMap不會對整個容器進行擴容，而只對某個segment進行擴容。

另一個操作是containsKey，這個實現就要簡單得多了，因為它不需要讀取值：

boolean containsKey(Object key, int hash) {  
     if (count != 0) { // read-volatile  
         HashEntry e = getFirst(hash);  
         while (e != null) {  
             if (e.hash == hash && key.equals(e.key))  
                 returntrue;  
             e = e.next;  
         }  
     }  
     return false;  
 }

size()操作

如果我們要統計整個ConcurrentHashMap里元素的大小，就必須統計所有Segment里元素的大小后求和。

Segment里的全局變量count是一個volatile變量，那么在多線程場景下，我們是不是直接把所有Segment的count相加就可以得到整個ConcurrentHashMap大小了呢？
不是的，雖然相加時可以獲取每個Segment的count的最新值，但是拿到之后可能累加前使用的count發生了變化，那么統計結果就不準了。所以最安全的做法，是在統計size的時候把所有Segment的put，remove和clean方法全部鎖住，但是這種做法顯然非常低效。

　　因為在累加count操作過程中，之前累加過的count發生變化的幾率非常小，所以ConcurrentHashMap的做法是先嘗試2次通過不鎖住Segment的方式來統計各個Segment大小，如果統計的過程中，容器的count發生了變化，則再采用加鎖的方式來統計所有Segment的大小。

　　那么ConcurrentHashMap是如何判斷在統計的時候容器是否發生了變化呢？
使用modCount變量，在put , remove和clean方法里操作元素前都會將變量modCount進行加1，那么在統計size前后比較modCount是否發生變化，從而得知容器的大小是否發生變化。

其他資料: ConcurrentHashMap

GPU云服務器云服務器 java集合的原理 java集合源碼分析 ConcurrentHashMap java 集合

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://specialneedsforspecialkids.com/yun/68027.html

這幾道Java集合框架面試題在面試中幾乎必問

摘要：若遇到哈希沖突，則將沖突的值加到鏈表中即可。之后相比于之前的版本，之后在解決哈希沖突時有了較大的變化，當鏈表長度大于閾值默認為時，將鏈表轉化為紅黑樹，以減少搜索時間。有序，唯一紅黑樹自平衡的排序二叉樹。本文是最最最常見Java面試題總結系列第三周的文章。主要內容： Arraylist 與 LinkedList 異同 ArrayList 與 Vector 區別 HashMap的底層...

bigdevil_s 2019-08-19 11:01 評論0 收藏0
周末去面試，進去 5 分鐘就出來了…

摘要：記得，那是一個周末，棧長去某知名互聯網公司面試，好像不到五分鐘，我就被面試官親切地趕出來了，當時我那個尷尬，內心深受打擊。。。你們可能會想，棧長這么菜的嗎？5分鐘都堅持不了？本文說起來會有點尷尬，畢竟這是棧長我曾經經歷過的故事。。。那時候的棧長還真菜，每天寫著 if/ for 及一些簡單的業務邏輯代碼，雖工作有些日子了，但技術水平還停留在剛畢業的起步階段。。。記得，那是一個周末...

pf_miles 2019-08-16 14:00 評論0 收藏0
Netflix Hystrix斷路器原理分析

摘要：斷路器原理斷路器在和執行過程中起到至關重要的作用。其中通過來定義，每一個命令都需要有一個來標識，同時根據這個可以找到對應的斷路器實例。一個啥都不做的斷路器，它允許所有請求通過，并且斷路器始終處于閉合狀態斷路器的另一個實現類。斷路器原理斷路器在HystrixCommand和HystrixObservableCommand執行過程中起到至關重要的作用。查看一下核心組件HystrixCi...

Lemon_95 2019-08-19 11:04 評論0 收藏0
一名3年工作經驗的java程序員應該具備的職業技能

摘要：一名年工作經驗的程序員應該具備的技能，這可能是程序員們比較關心的內容。數據結構和算法分析數據結構和算法分析，對于一名程序員來說，會比不會好而且在工作中能派上用場。一名3年工作經驗的Java程序員應該具備的技能，這可能是Java程序員們比較關心的內容。我這里要說明一下，以下列舉的內容不是都要會的東西—-但是如果你掌握得越多，最終能得到的評價、拿到的薪水勢必也越高。 1、基本語法這包括...

renweihub 2019-08-16 12:44 評論0 收藏0