论CPU核心数，为什么Intel会干不过AMD？-电子工程专辑



 0

 收藏

 分享

扫码分享到微信好友

 扫一扫

扫码查看更多文章

AMD给自家处理器堆了这么多核心，Intel为什么不也这么干呢？偏要等到今年出了混合架构，才开始通过E-core堆出更多核心？很多同学首先想到的，应该是Intel工艺暂时落后于台积电的事实。这的确是一个因素，更大线宽的工艺，堆起核心来自然要耗费更多的芯片面积——也就是成本；而且对功耗也相当的不利。但实际上还有一些架构层面的原因，是相关于核心之间的连接方式的。

前不久我们体验了 Intel 12代酷睿桌面处理器。这代处理器的特点是CPU部分采用两种核心，P-core和E-core。这种设计在PC世界里很少见。

其中的E-core乃是“刷分神器”，尤其是在Cinebench这样的测试中。E-core作为占die面积显著更小的一种核心，也让今年Intel处理器的核心堆砌显得比以往方便得多。所以今年酷睿i9-12900K也很轻易地达成了16核心设计，隔壁AMD再也无法秒天秒地秒空气了。

2017-2018年，AMD通过Zen架构的推出，在PC处理器领域打了个翻身仗，让Intel这些年的日子越来越不好过。但我们此前的分析文章也不止一次地提到过，AMD Zen就核心架构层面也没什么了不得的，其核心层面的性能顶多也就是赶上了Intel。

AMD这两年让Intel真正不好过的是处理器的多核性能。说穿了就是AMD家PC处理器的核心数之多，能把Intel打得找不着北。当然就个人应用领域，很多CPU核心未必有太大实用价值，但跑分和媒体都喜欢嘛（误）。

这里就有个疑问，AMD给自家处理器堆了这么多核心，Intel为什么不也这么干呢？偏要等到今年出了混合架构，才开始通过E-core堆出更多核心？很多同学首先想到的，应该是Intel工艺暂时落后于台积电的事实。这的确是一个因素，更大线宽的工艺，堆起核心来自然要耗费更多的芯片面积——也就是成本；而且对功耗也相当的不利。

但实际上还有一些架构层面的原因，是相关于核心之间的连接方式的。

Intel的环形总线

Alder Lake 架构分析文章提到过处理器内部的“Computer Fabric”是dual-ring双环设计（如下图），带宽是1000GB/s。这其实是当代PC处理器的常规设计。简单理解，就是将所有处理器核心挂在一个环上，当然这个环上还有一些别的模块（比如GPU、I/O）。核心之间的通讯就通过环形结构进行。

这种设计最早可以追溯到2008年Intel的Nehalem架构处理器（当年确立酷睿处理器地位，把AMD彻底甩在身后的一代架构）。

更早年die内的核心间连接方式不是这样的。如果只考虑CPU核心的话，两个核心直接连接即可；如果是3个核心，则两两互联，亦不是问题......不过此处还需要考虑到需要与核心产生连接的，远不只是处理器核心。

在只有1个核心的情况下，其他周边节点可以星型的方式，围绕核心做星型连接。双核大概可以采用双星结构。但随着核心数增加，这种连接关系就会显得越来越复杂。

在处理器一个die内的核心数达到4个的时候，核心之间的连接就会产生分歧了。以全连接的方式连接，则核心之间需要两两相连——听起来似乎也还好。而当核心数增加到6个的时候，全连接的复杂度显著增加。

6核心全连接

这种全连接方案当然能够达成最高的互联性能，包括带宽和延迟。但全连接也意味着设计复杂度、成本和功耗的增加。这个时候环形总线就成为一个不错的选择（如下图），尤其这种方案对于增加核心数更友好——把模块加上去就好了。不同模块的互联起码是符合直觉的。

Intel的环形总线Ring Bus通常是双环，数据流向是两个方向。环形总线和全连接方案相比，每两个模块之间的平均通讯距离实际上是更长的，最长的时候可能需要经过半个环。这就产生了延迟、带宽方面的变数。

这种Ring Bus在实施复杂度、成本和功耗方面都达到了相对的平衡——尤其在核心数更多的情况下。如果4个模块做全连接，那么每个模块都要做3个连接，每两个模块之间的通讯长度是1跳。这4个模块若为双向环形通讯，则每个模块做2个连接，平均每两个模块之间的通讯长度是1.3跳。达到6个模块的时候，全连接每个模块就要做4个连接；环形连接时，每个模块依然是2个连接，平均通讯距离为1.8跳。

Ring Bus

如前文所述，在考虑当代PC CPU多核心（比如现在高端桌面处理器是8个核心），以及DRAM控制器、I/O、核显之类的构成时，全连接的复杂性将变得难以为继。环形总线至此都还是权衡利弊的方案。

但环形总线也不是万能的，当核心数进一步增加时，问题就会变得比较大了。在核心数增加到10个，甚至12个以后，ring也将变得很大，核心间的延迟将进一步增大；要喂给核心的数据带宽需求变大。

这其实也是Intel当代的酷睿处理器很难在核心上可与AMD Ryzen去比的重要原因。所以10代酷睿处理器最多塞了10个核心，而11代则只塞了8个核心（与工艺限制有很大关系）。单die之下，再塞核心一方面会让die size变得过大，影响良率和成本；另一方面核间通讯效率也会大幅下降。

12代酷睿i9-12900K die shot，注意看蓝色的8个P-core，和青色的8个E-core

所以12代酷睿是怎么做的呢？目前12代酷睿桌面处理器最高端的型号i9-12900K包含8个P-core与8个E-core。其中E-core的面积效益非常高，占die面积比P-core小多了。更重要的是，在Intel的设计中，每4个E-core构成一簇，在Ring Bus环形总线上才相当于一个stop。于是8个E-core，实际上总共只占了Ring Bus上的2个位置。加上Intel 7工艺的加持，12代酷睿达成了性能、成本和功耗的均衡。

这算是这一轮PC处理器核心大战中，Intel有喘息之机、扳回一城的重要战果。

实际上，对于服务器CPU这类核心数明显又更多的处理器而言，Intel也尝试过用两个ring（两个双ring），然后把两个ring再连起来的方案。在至强处理器（Broadwell-EP）这一例中，每个Ring Bus都挂上了12个核心，当然还有外部存储、I/O相关的模块。左边这个ring上挂了17个节点。左右两个ring则用双向Pipe Line连接。

另外，针对多模块互联，Intel其实也尝试过其他的方案。通常是介于环形总线和全连接的方案，主要都是为了权衡功耗、性能和成本。但当核心数再行增加之时，又该怎么做呢？

mesh与crossbar方案

参考Arm面向服务器的Neoverse处理器IP：比如Neoverse N1，就核心微架构层面，它与手机上很多人熟知的Cortex A76是比较类似的，只是因为服务器处理器核心数可能会非常多（Arm这两代的最高配都预设了128个核心），自然不可能用环形或全连接方案。

此前我们针对 Neoverse N1、N2的解析文章都谈到过连接用到的mesh网络；当然x86现在的服务器处理器普遍也都是这么干的。在2D mesh网络连接下，大致连接方案如上图所示，就像围棋棋盘一样互联。

这种方案在不同节点之间的延迟上依然存在变数，对于某些较重的数据流事件而言，数据可能需要经过比较长的路径才能到达目的地。以Skylake-SP为例，当时mesh和L3 cache跑在1.8-2.4GHz的频率上，低于同期的ring运行频率（Boradwell-EP）。Mesh对于更多核心的支持本身也会增加延迟。比如说某个核心要访问临近的L3 cache，每1跳要多1个周期。最坏的情况是，从右上角的节点，获取左下角的节点数据，需要13个周期。

其实Skylake-EP问世之际采用mesh连接方案，虽然比此前的Broadwell-EP多连了几个核心，但平均延迟其实跟后者是差不多的。

不过这些都会随着核心数的进一步增加而显得没那么重要。Mesh连接的layout简单，而且灵活性、可扩展性很强——这是Ring Bus无能为力的，起码对于再增加核心数有着更高的适应性。

如果仔细对比：在处理器核心数再增多的情况下，采用两个ring，以及采用2D mesh网络相比，平均两个核心间的通讯，以及核心与DRAM、I/O的通讯会显著更优。前文中至强处理器那种两个ring的方案，尤其某个核心如果要跨越ring，去访问另一个ring上的内存控制器，则所需的周期开销会非常巨大。

另外，在2D mesh之外，现在探讨3D mesh的文章似乎也都很热门。即在chip-on-chip堆叠方案开始广泛采用之际，mesh网络在interposer硅中介层实施，也就能够进一步降低核心通讯的延迟。

AMD Zen架构处理器的一个簇（CCX）

那么说回AMD，AMD在PC处理器上用的是mesh网络连接，所以堆核心才那么容易吗？并不是。AMD当代Zen架构处理器还是比较特殊的，我们在此前的文章里曾经介绍过。

从比较高的层面来看，AMD的PC处理器现在普遍在采用chiplet方案。也就是每个芯片是由好几片die（或chiplet）构成的。每个die上都有几个核心；然后通过一枚I/O die作为通讯中心，连接所有包含了处理器核心的die。

具体来看，Zen 2架构处理器，每4个核心组成一个簇（CCX），每2个簇组成一个die（CCD）。而两个或更多的die构成一颗完成的芯片（当然还要加一个负责通讯的I/O die）。到了现在的Zen 3，则每8个核心构成一个簇。

像AMD Ryzen R9（5950X）能堆出16个核心，这种基于chiplet的方案首先就是功不可没的。基于chiplet的方案，至少从工艺层面上就摆脱了核心数增多让die变得过大导致成本急剧增长的问题，因为把整个芯片切分成了很多的小die，那么在生产制造时也就可以增加良率、降低成本。这和Intel把那么多核心都塞到同一个die上的方案不一样。（虽然笔者认为，AMD的这种做法对PC行业本身是否真的有很好的正向价值，是值得商榷的）

当然，这只是制造层面堆核的基础。我们其实并不清楚AMD Zen架构处理器的核心之间究竟是如何通讯的。有可能每个簇（每8个核心）之间采用的是Ring Bus，此前AnandTech采访AMD问及其簇内部的8个核心是否是全连接的，AMD回答称并非如此，但比较接近。所以可能是某种介于环形和全连接的方案。

看看下面的I/O die

而die之间又是怎么连接的呢？从高层级来看，AMD现在的处理器的计算die之间当然需要经由I/O die来做通讯。而这个I/O die，在扮演的角色上其实更像是crossbar：就像一个路由器或者指挥中心一样，负责不同网络之间的通讯。

其实在更高层级上，物理外置的crossbar比较具有代表性的如英伟达的NVSwitch：将多GPU连在一起——可能层级有差异。不过crossbar内部总是采用某些连接方式，比如说mesh；从抽象维度来看，每个节点到crossbar都只需要1个连接，但其能够实现的带宽、效率仍然可能是可观的。

AMD Zen架构处理器的I/O die连接所有的计算die，这是个Ring Crossbar结构设计。AnandTech在探讨文章中提到，I/O die的这个环可以挂8个stop。在ring连接之外，某些stop之间也会有连接——所以不同节点之间的通讯延迟也存在差异，以及I/O die也并不是单纯的环形连接。似乎将计算die内互联，和die间互联考虑进来，这样的方案也还是比较复杂的。

其实AMD当前做多die封装的技术并不先进，未来基于硅中介的2.5D封装才是此间的趋势，虽然成本也会更高。这一点，此前谈台积电与Intel先进封装技术的文章都已经分析过。加上3D堆叠垂直封装，可能未来基于chiplet堆核心的空间还是很大的。

而且不仅是CPU，今年随同12代酷睿一同发布的、Intel面向数据中心市场的GPU Ponte Vecchio才是chiplet方案的集大成者吧。要看到Intel持续在PC CPU上堆料也不会遥远。虽然我们始终觉得，堆核心对个人用户而言存在更为严重的边际递减效应。核心数量大战未见得是好事。

本文为EET电子工程专辑原创文章，禁止转载。请尊重知识产权，违者本司保留追究责任的权利。

作者不知道AMD Infinity fabric的情况下也可以写科普文？厉害了ee times china

阅读全文，请先

处理器/DSP 业界新闻市场分析消费电子数据中心/服务器

您可能感兴趣

从FPGA到ASIC，人工智能芯片设计之路

对于普通消费者，人工智能、机器学习、数字孪生、元宇宙这类科技名词简直让人目不暇给，其实这些都预示数字化大潮的来临。然而，如果没有好的大芯片，恐怕一切都是空谈。本文提出大芯片的设计之路，就是从架构到FPGA，再移植到ASIC。但这并非是平坦路，转换过程中存在各式各样的挑战。各团队必须清晰理解意图，牢记设计初衷。

2024年全球半导体市场走向是什么？

据WSTS最新公布的预测报告显示，因生成式AI普及、带动相关半导体产品需求急增，且存储需求预估将呈现大幅复苏，因此将2024年全球半导体销售额预估值自前次(6月6日)预估的5,759.97亿美元上修至5,883.64亿美元、将年增13.1%，超越2022年的5,740.84亿美元、创历史新高。WSTS预测，2024年全球半导体市场可望复苏，存储芯片营收将激增44.8%，是推升半导体营收成长主要动能。

从 L1~L5 自动驾驶芯片发生了哪些变化？

对于一颗车规级大芯片而言，为了确保设计的正确性，必须在生产制造前进行大规模的仿真和验证，而芯片的算力规模越大、集成度越高，仿真验证的过程就会越复杂，设计人员需要更快地实现收敛和验证，来降低成本并提高结果质量。同时，传统的随机/自动测试模式生成（ATPG）方案在故障覆盖率方面已经不能满足实际需求。因此，将 AI 和 EDA 融合是大势所趋。

联发科前后十年：AI 和 ASIC 将成为未来发展驱动力

联发科技（MediaTek）近日在加利福尼亚州拉古纳尼盖尔（Laguna Niguel）举行了年度高管峰会。峰会上强调了其以人工智能（AI）为驱动的高端定制 SoC（ASIC）战略；从 Wi-Fi 7 芯片到 5G 和 5G RedCap 瘦调制解调器的全新连接解决方案，凸显了其物联网战略和发展势头。

台积电会在日本落地3纳米芯片？

有专家认为，背后应有美国因素，基于地缘政治风险考虑，希望让日本成为具有3纳米芯片制造能力的经济体。不过，鉴于在美国亚利桑那州工厂的尴尬境地，台积电必然会深思熟虑一番。

Arm 将推出AI加速芯片：Cortex-M52

自ChatGPT带火AI以来，AI芯片得到了空前的发展，十月底高通发布了基于Arm架构的带有AI算力的骁龙X Elite芯片。刚刚，Arm宣布将在2024年推出Cortex-M52芯片，为低功耗物联网设备带来AI加速功能。

受惠于折叠手机渗透率提升，预估2024年UTG超薄玻璃产值可达6亿美元

根据TrendForce集邦咨询最新OLED技术及市场发展分析报告统计，在近期发表的摺叠新机中，UTG的市场渗透率已逾九成，随着摺叠手机规模持续成长，预估2023年UTG产值将达3.6亿美元；2024年可望挑战6亿美元。

2023年第三季全球前十大晶圆代工产值环比增长7.9%

随着终端及IC客户库存陆续消化至较为健康的水位，及下半年iPhone、Android阵营推出新机等有利因素，带动第三季智能手机、笔电相关零部件急单涌现，但高通胀风险仍在，短期市况依旧不明朗，故此波备货仅以急单方式进行。此外，台积电（TSMC）、三星（Samsung）3nm高价制程贡献营收亦对产值带来正面效益，带动2023年第三季前十大晶圆代工业者产值为282.9亿美元，环比增长7.9%。

治精微推出具过压保护OVP、低功耗、高精度运放ZJA3018

无线技术确保人们在家庭、工作和娱乐环境中的安全

无线技术每天都在拯救生命，有些非常方式是人们意想不到的。在美国加利福尼亚州Scotts Valley，一名路过的慢跑者发现一处住宅冒出火焰后，按响了门铃，试图通知屋主。屋主不在家中，但无线门铃连接到了智能家居中枢，提醒屋主慢跑者试图联系。屋主立即向他提供了安全密码，让他跑进房子，从火场中救出了宠物。

黄仁勋访越拟建芯片研发中心

英伟达（Nvidia）CEO黄仁勋11日表示，将扩大与越南高科技业者的伙伴关系，支持在当地训练研发人工智能（AI）与数字化基础建设领域的人才。黄仁勋还透露在越南设立芯片中心的构想。根据白宫今年9月提升

Wi-Fi7将于明年初获得最终批准，比Wi-Fi6快4.8倍

近日，Wi-Fi联盟宣布Wi-Fi 7规范将于第一季度末最终确定，为企业采用标准化硬件打开大门。 “基于 IEEE 802.11be 技术的 Wi-Fi CERTIFIED 7 将于 2024 年第一

智能建筑领域新亮点：欧普北极星引领“消照一体”趋势

11月9日是主题为“预防为主，生命至上”的第32个全国消防安全日，当天，智能建筑电气技术杂志《IBE Talks》栏目第27期特邀请中国勘察设计协会电气分会副会长、清华大学建筑设计研究院有限公司电气总

EMC整改之噪声耦合案例分享

一前言随着信息技术和半导体技术的快速发展，电子产品的类型和功能模块日益多样化，对此要求的传输速率也日益提高，在模块集成度多和传输速率提高的背景下，噪声的耦合问题不可避免的日益增多起来。二整改案例今天分

PCB大企与泰国某集团达成战略合作！

广告分割线12月11日，臻鼎科技集团与协成昌集团（Saha Group）达成了战略合作协议。当晚还举办了“2023庆祝战略合作签约暨鹏晟科技动土典礼晚宴”。本次战略合作协议的签订将进一步促进双方的合作

研讨会：利用编译器指令提升AMDVitis™HLS设计性能

AMD Vitis™ 高层次综合 ( HLS ) 已成为自适应 SoC 及 FPGA 产品设计领域的一项颠覆性技术，可在创建定制硬件设计时实现更高层次的抽象并提高生产力。Vitis HLS 通过将 C

软包电池及固态电池温度·压力测试系统

点击左上角“锂电联盟会长”，即可关注！有需要联系，王经理：18058289318相关阅读：锂离子电池制备材料/压力测试！锂电池自放电测量方法：静态与动态测量法！软包电池关键工艺问题！一文搞懂锂离子电池

5G黄金赛道之5GFWA市场最新情况与预测

本文来源：物联传媒本文作者：市大妈前几年，对大部分人来说，FWA是一个比较陌生的领域，尽管早在3G和4G时代就已经得到一定的发展。后来，随着5G的发展，FWA作为当前5G应用量级最大的场景之一，被更多

案例榜|2023“物联之星”智能工业系列案例

本文来源：物联传媒“2023‘物联之星’中国物联网行业年度榜单” 评选活动正在火热进行中！为深度挖掘物联网领域的优秀企业、创新产品和优秀项目，审读年度热门领域和发展方向，推动物联网行业的普及与宣传，促

腾讯今年回购金额已超过去10年总额；拼多多Temu成美国人最爱购物APP；苹果被看好明年市值冲向4万亿美元|日报

巨头动向腾讯今年回购金额已超过去10年总额12月11日，腾讯公告称，当日耗资约4.03亿港元，回购133万股股份。年初至今，腾讯已经出手113次，累计回购数量约1.28亿股，累计回购金额超过422亿港

黄烨锋欧阳洋葱，ASPENCORE 资深产业分析师，常驻上海，专注成像、移动与半导体，热爱理论技术研究。

进入专栏

文章评论

最新
热门

换一换

EE直播

更多>

社区

下载
帖子
博文

论CPU核心数，为什么Intel会干不过AMD？

Intel的环形总线

mesh与crossbar方案

杂志声明