CPU缓存实现高性能程序

发布时间：2021-05-04 10:57:07 所属栏目：传媒来源：互联网

导读：，做一次加法的指令是由多个时钟周期组成的(如取指令和数字、放入寄存器、执行ALU、将结果写回主存)，做ALU执行指令仅需要1个时钟周期，而取指令或者取数据、回写结果数据就需要与主存打交道了。CPU访问内存(主存)的速度非常慢，访问一次常常需要上百纳秒以

，做一次加法的指令是由多个时钟周期组成的(如取指令和数字、放入寄存器、执行ALU、将结果写回主存)，做ALU执行指令仅需要1个时钟周期，而取指令或者取数据、回写结果数据就需要与主存打交道了。CPU访问内存(主存)的速度非常慢，访问一次常常需要上百纳秒以上，这与计算指令有千倍的差距!怎样解决访问主存慢导致的CPU计算能力的浪费呢?加入CPU缓存!

CPU上增加缓存后，由于CPU缓存离CPU核心更近，所以访问速度比主存快得多!如果我们访问内存时，先把数据读取到CPU缓存再计算，而下次读取到该数据时直接使用缓存(若未被淘汰掉)，这在时间和空间上都会降低CPU计算能力的浪费!在时间上，有些数据访问频率高(热点)，多次访问之间都未被淘汰出缓存;在空间上，缓存可以同时加载相邻的数据、代码，这样函数、循环的执行都在使用缓存中的数据。

CPU缓存是分为多级的，原因是热点数据太大了!最快的缓存一定离CPU核心最近，因为体积小所以容量也最小，不能满足以MB计算的热点数据。最终发展出了三级缓存，分别称为L1、L2、L3级缓存。这三级缓存，L1和L2的缓存访问速度非常快，只有不到3ns，L3稍慢一些，但都远小于访问主存的速度。当然，CPU缓存的大小也远小于主存的大小，如本文最开始的那张图，现在的CPU缓存往往只有几十MB。如果大家点击具体的CPU细看缓存，可以看到intel只标明了smart cache，如下图所示(intel e5-2620 v4)：者的服务器有两颗e5，所以表现为32颗逻辑CPU。由于intel的超线程技术，所以两颗逻辑CPU对应一颗物理CPU。简单插一下何谓超线程技术：由于访问主存的速度太慢，所以intel想了一个主意，就是当CPU在等待从主存中调入数据或者指令时，同时做另一个任务，这样一颗CPU就表现为两颗逻辑CPU，如下图所示：么需要cpu cache line这个数值呢?因为它对提高性能是有用的!比如nginx中存储http header的hash表。假设我们的cache size是64字节，而一个hash bucket是48字节。假如某一个bucket的起始地址是1F7D030，那么它占用的内存就从1F7D030到1F7D05F，而cache size的特性导致只会从64的整数倍地址访问，于是需要访问两次：1F7D000和1F7D040。而如果我们能使得hash bucket大小是cache size的整数倍，那么就不会出现访问一个hash bucket需要两次操作主存的情况。比如，若原本bucket size是32，则设为64;原本为96，则设为128，即向上对齐。nginx有一个向上对齐函数就是做这个事的：

（编辑：常州站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

公众号大变局大批地方	鱼泡网荣获腾讯优秀产
三星Galaxy S21 FE官方	电视盒子是干什么用的