從Java視角理解系統(tǒng)結(jié)構(gòu)（二）CPU緩存

eternalshallow 發(fā)布于2019-08-14 11:40 / 3169人閱讀

摘要：從視角理解系統(tǒng)結(jié)構(gòu)連載關(guān)注我的微博鏈接了解最新動態(tài)眾所周知是計(jì)算機(jī)的大腦它負(fù)責(zé)執(zhí)行程序的指令內(nèi)存負(fù)責(zé)存數(shù)據(jù)包括程序自身數(shù)據(jù)同樣大家都知道內(nèi)存比慢很多其實(shí)在年前的頻率和內(nèi)存總線的頻率在同一個級別訪問內(nèi)存只比訪問寄存器慢一點(diǎn)兒由于內(nèi)存的發(fā)展受到

從Java視角理解系統(tǒng)結(jié)構(gòu)連載, 關(guān)注我的微博(鏈接)了解最新動態(tài)

眾所周知, CPU是計(jì)算機(jī)的大腦, 它負(fù)責(zé)執(zhí)行程序的指令; 內(nèi)存負(fù)責(zé)存數(shù)據(jù), 包括程序自身數(shù)據(jù). 同樣大家都知道, 內(nèi)存比CPU慢很多. 其實(shí)在30年前, CPU的頻率和內(nèi)存總線的頻率在同一個級別, 訪問內(nèi)存只比訪問CPU寄存器慢一點(diǎn)兒. 由于內(nèi)存的發(fā)展受到技術(shù)及成本的限制, 現(xiàn)在獲取內(nèi)存中的一條數(shù)據(jù)大概需要200多個CPU周期(CPU cycles), 而CPU寄存器一般情況下1個CPU周期就夠了.

CPU緩存

網(wǎng)頁瀏覽器為了加快速度,會在本機(jī)存緩存以前瀏覽過的數(shù)據(jù); 傳統(tǒng)數(shù)據(jù)庫或NoSQL數(shù)據(jù)庫為了加速查詢, 常在內(nèi)存設(shè)置一個緩存, 減少對磁盤(慢)的IO. 同樣內(nèi)存與CPU的速度相差太遠(yuǎn), 于是CPU設(shè)計(jì)者們就給CPU加上了緩存(CPU Cache). 如果你需要對同一批數(shù)據(jù)操作很多次, 那么把數(shù)據(jù)放至離CPU更近的緩存, 會給程序帶來很大的速度提升. 例如, 做一個循環(huán)計(jì)數(shù), 把計(jì)數(shù)變量放到緩存里,就不用每次循環(huán)都往內(nèi)存存取數(shù)據(jù)了. 下面是CPU Cache的簡單示意圖.

隨著多核的發(fā)展, CPU Cache分成了三個級別: L1, L2, L3. 級別越小越接近CPU, 所以速度也更快, 同時也代表著容量越小. L1是最接近CPU的, 它容量最小, 例如32K, 速度最快,每個核上都有一個L1 Cache(準(zhǔn)確地說每個核上有兩個L1 Cache, 一個存數(shù)據(jù) L1d Cache, 一個存指令 L1i Cache). L2 Cache 更大一些,例如256K, 速度要慢一些, 一般情況下每個核上都有一個獨(dú)立的L2 Cache; L3 Cache是三級緩存中最大的一級,例如12MB,同時也是最慢的一級, 在同一個CPU插槽之間的核共享一個L3 Cache.

感興趣的同學(xué)可以在Linux下面用cat /proc/cpuinfo, 或Ubuntu下lscpu看看自己機(jī)器的緩存情況, 更細(xì)的可以通過以下命令看看:

$ cat /sys/devices/system/cpu/cpu0/cache/index0/size
32K
$ cat /sys/devices/system/cpu/cpu0/cache/index0/type
Data
$ cat /sys/devices/system/cpu/cpu0/cache/index0/level
1
$ cat /sys/devices/system/cpu/cpu3/cache/index3/level
3

就像數(shù)據(jù)庫cache一樣, 獲取數(shù)據(jù)時首先會在最快的cache中找數(shù)據(jù), 如果沒有命中(Cache miss) 則往下一級找, 直到三層Cache都找不到,那只要向內(nèi)存要數(shù)據(jù)了. 一次次地未命中,代表取數(shù)據(jù)消耗的時間越長.

緩存行(Cache line)

為了高效地存取緩存, 不是簡單隨意地將單條數(shù)據(jù)寫入緩存的.?緩存是由緩存行組成的, 典型的一行是64字節(jié).
讀者可以通過下面的shell命令,查看cherency_line_size就知道知道機(jī)器的緩存行是多大.

$ cat /sys/devices/system/cpu/cpu0/cache/index0/coherency_line_size
 64

CPU存取緩存都是按行為最小單位操作的. 在這兒我將不提及緩存的associativity問題, 將問題簡化一些. 一個Java long型占8字節(jié), 所以從一條緩存行上你可以獲取到8個long型變量. 所以如果你訪問一個long型數(shù)組, 當(dāng)有一個long被加載到cache中, 你將無消耗地加載了另外7個. 所以你可以非?？斓乇闅v數(shù)組.

實(shí)驗(yàn)及分析

我們在Java編程時, 如果不注意CPU Cache, 那么將導(dǎo)致程序效率低下. 例如以下程序, 有一個二維long型數(shù)組, 在我的32位筆記本上運(yùn)行時的內(nèi)存分布如圖:

32位機(jī)器中的java的數(shù)組對象頭共占16字節(jié)(詳情見?鏈接), 加上62個long型一行l(wèi)ong數(shù)據(jù)一共占512字節(jié). 所以這個二維數(shù)據(jù)是順序排列的.

public class L1CacheMiss {
 private static final int RUNS = 10;
 private static final int DIMENSION_1 = 1024 * 1024;
 private static final int DIMENSION_2 = 62;

private static long[][] longs;

public static void main(String[] args) throws Exception {
 Thread.sleep(10000);
 longs = new long[DIMENSION_1][];
 for (int i = 0; i < DIMENSION_1; i++) {
 longs[i] = new long[DIMENSION_2];
 for (int j = 0; j < DIMENSION_2; j++) {
 longs[i][j] = 0L;
 }
 }
 System.out.println("starting....");

final long start = System.nanoTime();
 long sum = 0L;
 for (int r = 0; r < RUNS; r++) {
// for (int j = 0; j < DIMENSION_2; j++) {
// for (int i = 0; i < DIMENSION_1; i++) {
// sum += longs[i][j];
// }
// }

for (int i = 0; i < DIMENSION_1; i++) {
 for (int j = 0; j < DIMENSION_2; j++) {
 sum += longs[i][j];
 }
 }
 }
 System.out.println("duration = " + (System.nanoTime() - start));
 }
}

編譯后運(yùn)行,結(jié)果如下

$ java L1CacheMiss
starting....
duration = 1460583903

然后我們將22-26行的注釋取消, 將28-32行注釋,
編譯后再次運(yùn)行,結(jié)果是不是比我們預(yù)想得還糟?

$ java L1CacheMiss
starting....
duration = 22332686898

前面只花了1.4秒的程序, 只做一行的對調(diào)要運(yùn)行22秒. 從上節(jié)我們可以知道在加載longs[i][j]時, longs[i][j+1]很可能也會被加載至cache中, 所以立即訪問longs[i][j+1]將會命中L1 Cache, 而如果你訪問longs[i+1][j]情況就不一樣了, 這時候很可能會產(chǎn)生 cache miss導(dǎo)致效率低下.

下面我們用perf來驗(yàn)證一下,先將快的程序跑一下.

$ perf stat -e L1-dcache-load-misses java L1CacheMiss
starting....
duration = 1463011588

Performance counter stats for "java L1CacheMiss":

164,625,965 L1-dcache-load-misses

13.273572184 seconds time elapsed

一共164,625,965次L1 cache miss, 再看看慢的程序

$ perf stat -e L1-dcache-load-misses java L1CacheMiss
starting....
duration = 21095062165

Performance counter stats for "java L1CacheMiss":

1,421,402,322 L1-dcache-load-misses

32.894789436 seconds time elapsed

這回產(chǎn)生了1,421,402,322次 L1-dcache-load-misses, 所以慢多了.

以上我只是示例了在L1 Cache滿了之后才會發(fā)生的cache miss. 其實(shí)cache miss的原因有下面三種:

第一次訪問數(shù)據(jù), 在cache中根本不存在這條數(shù)據(jù), 所以cache miss,可以通過prefetch解決.

cache沖突, 需要通過補(bǔ)齊來解決.

就是我示例的這種, cache滿, 一般情況下我們需要減少操作的數(shù)據(jù)大小, 盡量按數(shù)據(jù)的物理順序訪問數(shù)據(jù).

具體的信息可以參考這篇論文.

by MinZhou via ifeve

GPU云服務(wù)器云服務(wù)器 java系統(tǒng)緩存 java系統(tǒng)緩存數(shù)據(jù) 系統(tǒng)設(shè)計(jì)緩存java java系統(tǒng)緩存清理

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://specialneedsforspecialkids.com/yun/64052.html

發(fā)表評論

登陸后可評論

0條評論

eternalshallow

男|高級講師

我要關(guān)注我要私信

TA的文章

如何提交百度新聞源?百度新聞源申請方法步驟

閱讀 1438·2021-09-28 09:44
程序員年紀(jì)大了以后都去了哪里

閱讀 2501·2021-09-28 09:36
NXP RT1064學(xué)習(xí)筆記（一）— 開發(fā)環(huán)境

閱讀 1144·2021-09-08 09:35
css總結(jié)

閱讀 1982·2019-08-29 13:50
如何使用Flexbox和CSS Grid，實(shí)現(xiàn)高效布局

閱讀 810·2019-08-29 13:29
史上前端面試最全問答（附答案）

閱讀 1130·2019-08-29 13:15
前端面試題2017（篇幅長，附答案）

閱讀 1724·2019-08-29 13:00
巧用命令行工具UCloud CLI，輕量操作API管理云資源

閱讀 2988·2019-08-26 16:16

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

從Java視角理解系統(tǒng)結(jié)構(gòu)（二）CPU緩存

相關(guān)文章

**從Java視角理解系統(tǒng)結(jié)構(gòu)（三）偽共享**

**從Java視角理解系統(tǒng)結(jié)構(gòu) (一) CPU上下文切換**

Java編程思想之多線程（一）

**三年半Java后端面試經(jīng)歷**

發(fā)表評論

0條評論

eternalshallow

男|高級講師

TA的文章

如何提交百度新聞源?百度新聞源申請方法步驟

程序員年紀(jì)大了以后都去了哪里

NXP RT1064學(xué)習(xí)筆記（一）— 開發(fā)環(huán)境

css總結(jié)

如何使用Flexbox和CSS Grid，實(shí)現(xiàn)高效布局

史上前端面試最全問答（附答案）

前端面試題2017（篇幅長，附答案）

巧用命令行工具UCloud CLI，輕量操作API管理云資源

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

從Java視角理解系統(tǒng)結(jié)構(gòu)（二）CPU緩存

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！