性能新巅峰 苹果M1,Pro和M1,Max到底有多强?

匡张平

2021年底,苹果发布了全新MacBook Pro,搭载了新的M1系列处理器。和上次发布的M1系列处理器不同的是,本次苹果带来了性能更强的M1 Pro和M1 Max。在发布会上,苹果只是简单提及了这两款处理器的规格情况,对于它们的细节信息却闭口不谈。那么,M1Pro和M1 Max究竟在规格、设计和性能上有哪些特别之处呢?

苹果在2020年11月发布了全新M1处理器之后,人们对苹果自研处理器的能力和M1所表现的强悍性能产生了极大兴趣,《微型计算机》在当时也刊载了《为什么这么强?深度观察苹果M1 SoC》一文。在M1之后,苹果又在2021年11月发布了M1 Pro和M1Max。相比M1,这次新发布的两款处理器有什么样的变化?它们的设计理念有新突破吗?本文将从不同角度来探寻这两款处理器的独到之处。

进入高性能领域:苹果M1Max和M1 Pro登场

一般来说,用于移动设备的SoC产品在芯片体积、晶体管数量方面会有一定限制,这主要是受制于移动设备的散热、电池容量等外部因素。不过这一次苹果在MacBook Pro上使用的芯片却大大出乎人们的意料。

本次苹果发布的2个SoC,其中M1 Pro拥有337亿晶体管,10核心CPU和16核心GPU。更令人惊讶的是M1Max,拥有高达540亿晶体管,同样10核心CPU,但是GPU核心的数量却提升至32个。毫不夸张地说,这是我们目前看到在类似体积和重量的笔记本电脑中所使用的最大SoC,甚至可能在未来很长一段时间内,都不会有如此巨大的SoC出现在x86平台上。

本次苹果并没有对M1系列处理器的CPU、GPU架构进行更新,因此有关M1的CPU架构——Firestorm和Icestorm的相关内容读者可以参阅本刊此前发表的《为什么这么强?深度观察苹果M1 SoC》一文。简单来说,Firestorm架构本身就是面向高性能处理设计的CPU架构,其前端发射宽度高达8,是一个缓存和执行资源非常充裕的超大核心,理论性能应该在AMD Zen 3和英特爾Sunny Cove之上。考虑到如此强悍的CPU架构,苹果将其整合设计为一颗高性能SoC也就不难理解了。

接下来,我们先来看M1 Max和M1 Pro两款芯片,再对其性能、功耗等情况做进一步分析。

M1 Max:无与伦比的强大

M1 Max是苹果有史以来推出的性能最强大的SoC芯片。官方数据显示,M1 Max SoC集成了大约540亿晶体管,10个CPU核心和32核心GPU。从规模角度来说,540亿晶体管的数量在民用级别产品上是非常夸张的,如英伟达之前发布的采用Ampere架构的GA100 GPU,晶体管数量也是540亿个,但是它在7nm工艺下功耗高达250W。显然M1 Max在晶体管规模上已经和目前顶级的GPU基本相同,考虑到GA100GPU极高的功耗,将类似规模的芯片用在一个整机重量为2.2kg的笔记本电脑中还是很困难的。实际上,M1 Max除了采用5nm工艺可以在很大程度上降低功耗外,在频率和整体设计上也有很多巧妙之处。

苹果大方地公布了M1 Max的晶元图。从设计结构来看,苹果在M1Max的中间靠下的位置放置了4组、每组8个共计32个GPU核心模块。环绕GPU核心模块的是S LC缓存,这里的SLC并不是NAND的一种,而是Systemevel Cache也就是系统级缓存的缩写。4组SLC外部则是4组128bit LPDDR5内存控制器,因此M1 Max总计拥有512bit LPDDR5的内存位宽。从设计上来说,4组内存控制器恰好对应4组SLC,SLC缓存的总容量为48MB,用于存放那些正在使用的、可能马上就需要使用的或者CPU和GPU共同需要使用的数据,这是苹果在SoC设计上一个重要的特点。理论上,如此巨大的SLC能够在一定程度上降低DR AM的流量,起到提高性能的同时降低芯片功耗的作用。

在GPU模块的上方,是CPU核心和其他的功能模块。CPU核心分为8个性能核心,采用的还是Firestorm架构。从晶元图上可以看出,8个Firestorm架构的C PU核心模块的中央拥有一个巨大的共享缓存(L3?存疑),并且每个CPU核心都带有自己独立的缓存(可能是L2)。缓存上方是4个Firestorm核心,下方有4个Firestorm核心—这里需要注意的是,缓存核心左侧和右侧并没有放置CPU核心,可能是一些互联总线、控制单元等。与此相应的,苹果的能效核心也就是Icestorm被放置在Firestorm核心的左侧,只有2个,也可以看到采用了非常大面积的缓存设计,缓存和相关单元几乎占据了整个核心面积的1/2。

M1 Max在整个CPU集群设计中所采取的思路和目前我们见到的其他移动SoC以及英特尔的产品并不相同。它采用了8个性能核心搭配2个能效核心的方案,性能核心数量远远多于能效核心。相比之下,英特尔刚发布的第12代酷睿采用的设计最多是8个性能核心搭配8个能效核心,

大能效核心数量对等,ARM的产品则一般会有1个性能核心,搭配3个中等核心和4个能效核心,性能核心和能效核心的数量相差距也不大。苹果的设计很独特,这可能是由于其不同核心的性能差距非常大(其实ARM的不同核心性能差距也不小),并且可能苹果在很大程度更倾向于采用时钟门控等技术来降低性能核心的功耗,而不是将其转移至能效核心和相关辅助单元有关。

一些测试数据显示,M1 Max的性能核心最高频率可达3228MHz,这种情况发生在某一个集群只有一个核心活动的时候。M1 Max中拥有8个性能核心,分为2个集群,每个集群有4个性能核心和12MB L2缓存。值得注意的是,8个性能核心虽然有4个在上、4个在下,但是在实际工作中,采用的却是左侧4个为一个集群,右侧4个为另一个集群,这样设计主要是考虑到所有核心使用L2缓存的距离和方便性。频率方面,每个集群中,活动的核心数量越多、频率越低。比如2个性能核心活动的时候会降低到3132MHz,3个或4个核心活动的时候会降低到3036MHz。由于每个集群都是独立控制频率的,所以可能出现3个核心的频率为3036MHz,另外1个核心由于在另一个集群且只有它单独运行,频率提升至3228MHz。

除性能核心外,能效核心部分M1 Max只有2个,频率最高可达2064M Hz。相比之下之前的M1拥有4个能效核心。这样设计的原因可能是M1 Max面向的用户更看重性能,能效核心太多反而会浪费晶体管资源。即使如此,苹果还是为2个能效核心配备了完整的4MB L2缓存。

除去上述CPU、GPU、SLC以及内存控制器外,整个M1 Max还有大约1/3的区域功能不详。这部分区域主要是苹果定制的一些功能,比如NPU、视频编解码、功耗控制、各类外部接口支持、显示单元以及这些模块的缓存等。

在性能参数方面,苹果没有给出太多具体的信息。不过据外媒测试的数据,M1 Max的GPU运行频率为1296MHz,这个数据相对移动SoC来说是不低的,但是依旧低于传统GPU。传统GPU的频率一般在2GHz左右,至少也能达到1.5GHz~1.7GHz。这可能是M1 Max在功耗上较低的原因之一。在内存带宽方面,苹果的512bit LPDDR5带宽高达408GB/s,目前还不清楚苹果如何在C PU、GPU以及各大模块中分配数据和带宽。

从整个设计布局来看,M1 Max中占据最大面积的就是GPU部分,GPU、SLC和内存控制器大约占据了整个芯片的一半还多。从某种意义上来说,M1 Max更像是一个围绕GPU设计的SoC,当然相对而言,其性能输出的最大部分也是GPU。另外值得注意的是,苹果给出的M1 Max晶元图其实很奇怪,因为在芯片底部呈现出双NPU的布局,但实际上苹果的官方资料中只有1个NPU。当然,由于这个图片是苹果给出的,苹果在没有说明每个模块的作用的情况下,出于商业或者保密需求可以任意更改,这都是可以理解的。

在内存带宽方面,M1 Max目前支持400G B/s的内存带宽,作为一个单核心SoC产品来说,这是目前业内最大带宽的产品。除了G PU或者DPU这样专注计算的设备或者面积大很多的其他类型芯片,没有任何一个可以执行通用计算处理的SoC能够在晶体管规模上与它相提并论,即使是面积更大的IBM Power 10在晶体管数量上也仅为180亿。

M1 Pro:337亿晶体管,依旧强大

M1 P r o比M1 Max少了大约200亿晶体管,但实际规格只减少了2个128bit LPDDR5内存控制器、2组SLC缓存以及16个GPU单元,其余部分基本相同。苹果给出的M1 Pro晶元图看起来更像是M1 Max晶元图直接截去了下部16个GPU和相对应的部分,实际上如果真的直接用M1 Max的晶元切割的话,那么芯片肯定无法正常运行。苹果似乎又耍了一个小花招。从规格来看的话,M1 Pro和M1 Max除了GPU、存储位宽和SLC缓存外,基本相同。因此本文在这部分就不再赘述了,读者可以查看表格进行了解。

内存和缓存:M1 M a x内存体系设计

我们再来看一些比较有趣的内容,比如M1 Max的内存、缓存设计和功耗。

根据Anandtech对M1 Max测试的结果,M1 Max相比M1内存延迟有大约10%的增加。增加的原因主要是由于LPDDR5内存的引入—LPDDR5相比LPDDR4X,整体延迟更高,但是带宽大增。这也是M1 Max的一个主要宣传点。M1 Max芯片的对外带宽高达408GB/s。这个带宽是如此巨大,实际使用中甚至CPU都無法将其全部占满。测试数据显示,M1 Max的CPU部分最大能够实现的内存带宽大约为243GB/s,CPU的一个核心可以接受的最大内存带宽为102GB/s。相比之下,即使是目前最先进的第12代酷睿处理器,其在双通道DDR5 4800的模式下,内存带宽也仅为76.8GB/s,只有在未来可能会推出的4通道模式下内存带宽才能突破150G B/s,这样的内存带宽是远不如M1 Max的,甚至M1 Max的一个CPU核心能够享用的内存带宽就远超第12代酷睿桌面版处理器,更不要说所有CPU核心能够实现的243GB/s了,在这一点上,M1 Max展示出了极为优异的性能优势。

当然,整个M1 Max的对外内存带宽为408GB/s,即使CPU占据了高达243GB/s,那么依然还有165GB/s供其他单元使用,尤其是G PU部分。相比CPU而言,GPU部分对内存带宽更为敏感。更大的可能是,M1 Max的整个内存部分是动态调用的,也就是根据需要,为CPU、GPU、NPU以及媒体单元匹配需求,这也是M1 Max能够实现流畅的、高帧率的5K 12bit ProRes RAW格式编解码,或者多条4K视频编解码的原因之一。相比之下,目前英特尔和AMD的处理器在进行类似的工作时,由于带宽限制,只能以个位数帧率进行操作,远远不如M1 Pro或者M1 Max体验感好。

除了巨大的内存带宽外,M1 Max和M1 Pro的统一内存架构也值得一提。对M1 Max这种芯片来说,芯片本身包含了CPU、GPU、大容量缓存以及统一的对外的内存控制器,除了内存使用和数据传输方式的巨大改变外,还意味着整个系统的功耗在很大程度上得到了显著降低。在很多情况下,由于统一内存架构的存在,CPU和GPU之间的数据交换可以通过芯片内部的总线完成。举例来说,在PC上,独立的CPU和G PU之间的协同工作需要依靠PCIe总线、内存(显存)控制器、主板上相关布线和电力支持等等一揽子功能单元,这些单元单独看都是必不可少的。这就造成了在传统PC中模型中,当数据从CPU端传递至GPU端时,整个流程会通过CPU、CPU内存控制器、内存、PC Ie控制器(CPU端)、PCIe控制器(GPU端)、GPU显存控制器、显存等七八个步骤才抵达GPU,效率低下。并且,CPU和GPU还需要耗费相当大数量的晶体管来完成诸如PCIe总线、内存控制器等重要的功能模块,并带来相应的能耗。

在M1 Max上,这个过程被大大简化了。同样是数据从CPU端传递至GPU端,这个流程很可能被简化成就是CPU向GPU发出指令,GPU去统一内存读取数据即可。当然实际上这个过程可能比较复杂,比如虽然统一内存架构看起来CPU和GPU的内存存放在一起,但由于优先级、隔离区、数据一致性等原因可能存在诸多限制,但最起码都存放在一起了,至少在物理设计上拥有数据共享、传输方面的优势。尤其是苹果还将内存和SoC封装的尽可能靠近,这意味着数据读取距离变短,数据传输中可能不需要太多校验,传输所耗费的电能也会更低。

统一内存架构的存在使得苹果在内存控制器、PCIe总线控制器以及相关的缓存和功能单元只需要进行一次晶体管单元投资,节约的晶体管资源既可以用于其他模块,也能够有效改善整体芯片的性能功耗比。一些数据显示,内存控制器和相关部件在GPU中占据接近10%~15%的晶体管面积或资源,同时内存控制器和相关总线的功耗在G P U的使用周期中甚至贡献了最高可达30%的电能消耗,这些晶体管资源和能耗空间都是非常宝贵的,尤其是苹果改用了LPDDR5之后,整体功耗还会进一步降低,更为卓越。

在内存之外就是缓存。我们从M1、M1 Pro以及M1 Max的设计可以看到,苹果在SoC的设计中是极其关注缓存、内存的位置、容量和速度的。在M1 Max上,SLC的容量高达48MB,L3缓存容量高达12MB,此外在NPU、GPU等其他部件上还有大量的缓存存在,这些缓存基本上都是SR AM缓存——要知道在芯片设计中,SRAM缓存一个数据位要耗费6个晶体管,这是非常昂贵的代价。很多厂商比如英特尔和AMD,在计算单元、缓存、总线等部件中保持谨慎地平衡,尤其是L3缓存一般不会设计太大,并且往往不会使用L4缓存。但是,缓存的使用自然有其独特的作用:更大的缓存显著降低了数据在DR AM和CPU之间反复传输、存储的次数,极大地减少了CPU、GPU等部件由于等待而带来的性能损失,并且在很大程度上也降低了功耗,因为数据传输在芯片内部完成,不需要内存控制器和DR AM过多参与的话,自然整体功耗会有一定的下降。

功耗控制:没有明确的TDP值

再来看有关功耗方面的内容。由于苹果目前没有给出任何有关M1Max和M1 Pro在节能设计方面的信息,因此功耗方面的工作情况尚不得而知。根据Anandtech的测试结果,M1 Max和M1 Pro芯片的封装功耗大约只有200mW,整个设备的功耗也不会超过7.2w。在单线程工作中,芯片功耗大约为11W,多线程中大约运行在34~43W之间,CPU部分的功耗墙大约在40~62W之间。如果加入GPU的话,整个芯片的最大功率大约是92W,功耗墙大约在120W左右,虽然看起来非常高,但是相比PC平台的产品还是低了太多,实测大约不到PC平台接近性能产品的一半。

这里的情况显示,苹果可能在很大程度上放弃了TDP之类的标注,转而使用单一的温度数值来对处理器进行控制。实际上,针对现代的CPU、GPU、SoC产品来说,比如英特尔或者AMD、英伟达的CPU、GPU,甚至高通的SoC产品,TDP数值的参考意义在逐渐下降。举例来说,在频率加速等相关技术存在的情况下,TDP值在很大程度上并不能真实反映设备的运行情况。比如英特尔的处理器即使是酷睿i9,TDP功耗一般不超过100W,但实际运行功耗尤其是睿频的瞬间可以超过200W。并且,在电能满足的前提下,这些产品性能释放的时间长短和所能达到的频率高度只和温度相关,只要散热条件足够好、温度足够低,那么芯片就能在设计范围内、尽可能长时间的运行在最高频率(往往显著高于额定频率)下。

对M1 Max和M1 Pro而言,可能苹果认为只要温度控制的足够好,处理器就可以在需要的情况下尽可能长的时间内运行在尽可能高的频率上。当然,散热系统的能力最终还是有极限的,这就带来了所谓功耗墙的概念,这是实际运行中达到了温度上限也就是散热设备的极限后系统所消耗的功耗值。现在我们也很好奇,如果采用一些比较极端的散热手段,M1 Max和M1 Pro在计算任务持续满载的情况下,是否还能进一步提升频率或者只是维持在目前的最高频率状态下持续工作,否则一旦温度值触及了高点或计算任务完成,频率和温度都会迅速下降—在节能设计上,苹果具有非常显著的优势,任何不工作的部件都会迅速进入休眠状态并最大限度地降低自己的能耗,值得称赞。

性能:CPU多线程性能令人惊讶,GPU生产力表现更佳

最后再来看看性能方面的内容。还是引用Anandtech的数据,M1 Max和M1 Pro的CPU单线程性能和之前的M1处理器几乎没有差异,这意味着苹果M1系列SoC在架构上都是一样的,架构的更改和单核性能的提升可能要等到M2系列才能有显著改变了。

但是,由于核心数量的增多,M1 Max和M1 Pro的多线程性能得到了爆发式的提升。实际测试显示,由于性能核心的数量更多并且显然在架构设计、缓存、内存方面存在显著优势,M1 Max和M1 Pro的多线程性能相比移动端最强的酷睿i9-11980HK以及AMD锐龙 5985HS而言,绝大部分项目都能取得显著领先,尤其是内存性能测试数据甚至领先一倍以上。这显示了更多的性能核心带来的多线程优势以及苹果在内存架构方面的优势,少部分项目存在一定劣势,但落后幅度很小。整体来说,M1 Max和M1Pro的性能还是值得夸耀的。

GPU方面,M1 Max在理论性测试中的性能令人惊讶,甚至一度比肩英伟达RTX 3080移动版。不过实际游戏测试中表现一般,远不如RTX 3080,甚至还略弱于RTX 3060。实际上在这里的问题是,很多游戏采用X86指令集进行开发,因此在M1 Max和M1 Pro上运行时需要转译,这个过程带来了比较显著的性能损失。当然,在G PU优化方面苹果可能也存在一些问题。另外,苹果的GPU目前不支持光线追踪等高级技术,这是苹果显著落后PC的地方。

虽然游戏表现一般,但是在专业工作能力上,比如DaVinci Resolve、DaVinci Resolve等测试中,M1 Max和M1Pro又表现出极为卓越的性能,测试成绩甚至高于目前顶级的桌面PC。这意味着对专业工作人员来说,M1 Max和M1 Pro依旧是非常值得选择的。

总结:苹果生态的又一次巅峰之作

M1 Max和M1 Pro强悍的CPU性能、优秀的G PU专业性能、独特的统一内存架构、不惜工本的缓存体系和优秀的功耗控制,都证明着苹果领先的芯片设计、生产能力。可以说,它们是苹果生态的又一次巅峰之作。

那么,苹果为什么能够做出如此多独特的设计呢?从芯片架构和技术的角度来看,苹果抛弃了在PC上常见的CPU搭配GPU的架构,转而采用了大核心SoC的结构,这种结构能够避开不少传统PC架构的缺陷。但是这种路线也带来了高昂的成本和难以进一步扩张性能的隐忧。苹果在5nm的工艺下使用了540亿晶体管,不说芯片前期设计投入费用,光是制造的成本和良率等問题就会令很多企业望而却步,这也是苹果给出多种不同规格的M1 Max和M1 Pro的原因之一:部分缺陷芯片可以屏蔽一部分模块、降低性能级别使用。另外,苹果在目前的工艺层级下很难进一步大幅度提升性能,目前的芯片已经足够大,苹果短期内也不会采用Chiplet方案,因此其产品的性能上限基本上就是M1Max级别,这相比英特尔和AMD的产品在性能上限方面还是低了不少。

无论怎么说,M1 Max和M1 Pro依旧是目前最卓越的芯片产品之一。和PC产业不同的是,苹果现在几乎没有硬件架构上的包袱,苹果作为一个拥有独立生态系统的企业,可以在生态运作、上下游产业方面有自己更为独立、独特的运作方式,这也是M1 Max和M1 Pro设计成目前的形态、拥有现在的技术和架构的原因之一。

猜你喜欢晶体管功耗控制器2.6万亿个晶体管大自然探索(2021年7期)2021-09-26水泥生料立磨压差变参数二型模糊控制器设计当代化工(2020年4期)2020-08-24ARM发布新一代CPU架构Cortex-A78中国计算机报(2020年21期)2020-06-21新型聚合物半导体薄膜及其场效应晶体管的研究华东师范大学学报(自然科学版)(2020年1期)2020-03-16基于NFV的分布式SDN控制器节能机制网络空间安全(2019年8期)2019-03-18“Transistor Density Increase by 1000X”鳍式晶体管密度增加技术信息化建设(2016年12期)2017-05-02揭开GPU功耗的面纱个人电脑(2016年12期)2017-02-13薄膜晶体管(TFT)介绍薄膜晶体管物理与技术国外科技新书评介(2014年6期)2014-12-17强大的紧凑型可编程逻辑控制器食品安全导刊(2014年4期)2014-05-20智能液位控制器在排水系统中的应用科技传播(2012年10期)2012-06-06

推荐访问:巅峰 有多强 性能