EEJournal

专题文章
现在就订阅

英特尔架构的新进展会定义下一个计算十年吗?

几天前,在撰写本文时,全球技术媒体的crème de la crème受到欢迎,参加了一场仅限受邀者参加的虚拟活动——英特尔2021年架构日。

由于某些人的某些奇怪疏忽(也可能是因为我有一些地位低下的朋友),我被召集到这些杰出的记者中,参加这个庄严的场合(我母亲很自豪——她将为此在美发店“就餐”几个星期,向她的朋友们讲述我勇敢的事迹)。

稍后,我将为您介绍一些令人惊叹的建筑创新细节,这些细节将让您大吃一惊(您可能需要花一些时间来确保您的服装合适)。严肃地说,我有一些关于建筑进步的消息要告诉大家,这些进步的后果将在未来几年产生影响。然而,首先,让我们花点时间来反思一下这一切是如何在时间的迷雾中开始的——50年前,当我写下这些话的时候——当时我还是一个眼睛明亮、尾巴浓密的14岁男孩,正在建造我的第一个脑电波放大器(我希望有一天能让它工作)。[提示“穿越回到过去”的音乐和伴随的视觉效果。]

第一个商用微处理器是1971年推出的英特尔4004。这个小流氓被介绍为一个16针的设备。它有一个4位数据总线和一个12位地址总线。由于该封装的引脚有限,因此使用了8个引脚来复用地址和数据总线,其余引脚用于提供电源和接地、复位/测试触发、两个时钟输入以及与ROM和RAM存储设备握手。4004大约包含2300个晶体管,每秒可以执行6万次操作。

说句题外话,我自己的收藏中就有一个这样的小美人(我的是陶瓷C4004型,没有陶瓷上的灰色痕迹)。

英特尔4004微处理器(图片来源:Thomas Nguyen/Wikipedia)

就像我写的DIY计算器支持网站:“1972年11月,英特尔推出了8008,它本质上是4004的8位版本。8008包含大约3300个晶体管,是第一个被称为PL/M的高级语言编译器支持的微处理器。在8008之后又出现了4040,它通过增加逻辑和比较指令,并通过使用小型内部堆栈支持子程序嵌套,扩展了4004的功能。然而,4004、4040和8008都是为特定的应用而设计的,直到1974年4月,英特尔才推出了第一个真正的通用微处理器8080。这款8位设备包含约4500个晶体管,每秒可执行20万次操作,注定要成为许多早期家用电脑的中央处理器。”

1978年,英特尔推出了16位8086,这就产生了现在所知的x86指令集体系结构(isa)家族。

我们可以喋喋不休地谈论英特尔设备的发展,但我们还有其他事情要做(这提醒了我,如果我没有指出我最近接受了阿米莉亚·道尔顿的采访,那就太疏忽了特别版:今日创客!亚搏体亚搏炸鱼播客).

然而,我们离题了……回到2021年英特尔架构日,我被我的所见所闻惊呆了。演讲的重要部分由加速计算系统和图形(AXG)集团的高级副总裁兼总经理Raja Koduri开始,他解释了技术如何改变世界,如何获得巨大的计算能力对我们生活的几乎每个方面都至关重要,高端用户如何要求到2025年他们的工作负载运行速度提高1000倍,以及英特尔如何定位以实现这一目标。

这里有很多东西要包围一个人的大脑,所以我要介绍在三万英尺的高度上的东西来展示所有东西是如何组合在一起的,之后我们会讨论一些基本的事实和数据。

新的x86内核

我们首先介绍两个新的x86内核,它们将为接下来的内容奠定基础。首先,我们有高效的x86核心,对于那些保持警惕的人来说,它之前的代号是“Gracemont”。这是一种可扩展的微架构,可以满足从低功耗移动应用程序到多核微服务等广泛产品的计算需求。尽管它被标榜为世界上最节能的x86核心,这个小美人仍然设法比英特尔迄今为止最多产的核心交付更多的每时钟指令(IPC)。

接下来,我们有了Performance x86 Core,它以前的代号是“Golden Cove”。在保持高效率的同时,这个核心是为原始速度而设计的,推动了低延迟和单线程应用程序性能的极限,同时提供了可扩展的架构,可以服务于从笔记本电脑到台式机到数据中心的各种平台。

Intel Thread Director技术

在计算机科学中,“线程”是可由调度器独立管理的最小编程指令序列,调度器通常是操作系统的一部分。假设我们有一个由多个核心组成的处理器,例如我们刚刚讨论的高效x86和性能x86核心集群。我们如何将线程分配给这些核心以无缝地最大化性能和效率?

传统的方法是基于静态规则将线程分配给核心,但这将使性能暴露在外,并为软件开发带来开销。问题是事情总是在不断变化,特别是当多个应用程序同时运行时,其中每个应用程序可以有多个线程。其中一些线程将是关键任务,而其他线程将与普通的后台任务相关联。一些线程将倾向于向量操作,这是性能核心更好的服务,而其他线程可能主要包含标量操作,这可以由高效核心解决。问题是线程所做的事情可能会随着时间的推移而来回变化——有时主要是向量,其他时候主要是标量,等等。

答案是英特尔线程指导技术。这为每个线程当前正在做的事情提供了硬件监控,并将此信息传递给操作系统,由操作系统决定如何处理事情。所有这些都是动态和自主地进行的,从而为现有应用程序提供了显著的性能提升(这是在新内核提供的性能提升之上),而无需对软件进行任何更改。高效核心、性能核心和线程指导的组合对用户感知的性能和功耗产生了巨大的影响。更棒的是,英特尔已经与微软合作,将这一功能集成到即将发布的Windows 11中。

Alder Lake客户端SoC

英特尔新一代处理器的第一个特点是结合了新的高效核心,性能核心和线程指导技术是代号为Alder Lake。

基于英特尔7处理器,Alder Lake的计算结构可以支持高达1000gb / s (GBps),即每个核心或每个集群100 GBps,并通过最后一级缓存将核心和图形连接到内存。说到这里,内存结构可以提供高达204 GBps的数据,并动态扩展其总线宽度和速度,以支持多个工作点,以实现高带宽、低延迟或低功耗。为了补充所有这些,I/O结构支持高达64 GBps,连接不同类型的I/O和内部设备,并且可以无缝改变速度,而不干扰设备的正常运行,选择结构速度以匹配所需的数据传输量。

Xe-HPG, Xe-Core, Xe-SS和炼金术士SoC

这就是事情开始变得复杂的地方(至少对你谦逊的叙述者来说是这样)。你是否知道目前世界上有15亿PC游戏玩家,而且这个数字还在飞速增长?

当然,这不是最复杂的部分——我只是想从我们都能理解的东西开始。这里真正的诀窍是让你的大脑沉浸在我即将向你抛出的所有缩写中。首先,我们有Xe-HPG,这是一种新的离散图形微架构,旨在扩展到游戏和内容创作工作负载的爱好者级性能(我假设HPG代表“高性能图形”,但它也可以指“高性能玩家”)。该微架构具有可扩展的Xe-core;内核越多,图形性能就越高。

第一个拥有这些技术的离散图形芯片是Alchemist系列的soc(其中Alchemist以前被称为DG2)。客户端路线图包括炼金术士,战斗法师,天界和德鲁伊soc,所有这些都将以英特尔Arc品牌上市。

真正引起我注意的一件事是英特尔新的基于神经的超级采样技术Xe-SS。我的理解是,如果有选择,我们都希望我们的游戏以4K分辨率渲染,但这是令人震惊的计算成本,并且可能导致较低的帧率。因此,许多游戏解决方案以1080p的分辨率呈现,然后升级到4K,但传统的升级解决方案会导致视觉失真和保真度下降。相比之下,Xe-SS使用神经网络和人工智能来执行升级。这使得应用程序能够以更高的帧率以1080p进行渲染,并且渲染的帧能够以如此保真的速度进行缩放,与原生4K渲染相比,没有明显的质量损失。

老实说,只有亲眼所见才能相信,所以我很高兴能告诉你,英特尔已经上传了一个这部分建筑日的视频YouTube(酷炫的画面在7:25开始,但我强烈建议观看整部影片)。

我不敢相信我已经写了这么多,而覆盖的却这么少。到目前为止,我们谈论的都是客户端计算机,比如移动设备、笔记本电脑和台式机,但还有更多……

欢迎来到数据中心

架构日的下半部分集中在数据中心。首先是关于英特尔下一代至强(Xeon)可扩展处理器的演示,该处理器的代码名为Sapphire Rapids。除了我们之前谈到的高性能x86内核,Sapphire Rapids还拥有新的加速器内核,新的内存架构,新的结构架构,新的I/O架构,一系列新的软件和安全特性,等等。

接下来,我们介绍了一套基于fpga的基础设施处理单元(ipu),这是一种可编程的网络设备,旨在使云和通信服务提供商降低开销并释放CPU性能。所有这些IPU都很有趣,但真正让人大开眼界的是英特尔的第一个ASIC IPU,它被称为Mount Evans。

你有没有听过这样一句话:“把最好的留到最后?”好吧,这就是英特尔的小小鬼们所做的,因为他们推出的最终设备是一种名为Ponte Vecchio的GPU,目标是人工智能和高性能计算(HPC)等应用程序。这个设备拥有超过1000亿个晶体管(我不得不不断重读这篇文章,以说服自己我没有犯错误),这是一个野兽。事实上,它是由47个活动瓷砖(想想硅模具)组成的,使用5个不同的工艺节点实现,所有这些节点无缝连接在一起,看起来就像一个巨大的模具。实际上,这并不完全正确,因为它还涉及3D骰子堆叠,其中令人生畏的细节会让你的大脑从耳朵里流出来。

我不想在这里解释所有这些,让我们来看看这段维奇奥桥的视频片段(当我说“片段”时,我应该指出这是一个25分钟的片段),它以令人兴奋的细节解释了一切。

之前,我承诺过一些基本的事实和数据,我想我是一个言出必行的人,但这里有太多的数字,我不能随便说,所以让我来引导你们本资料简介来自英特尔新闻编辑室。

说实话,我还只是触及了皮毛。这些架构上的每一个进步——高效x86核心、性能x86核心、Thread Director、Alder Lake、Alchemist(包括Xe-HPG、Xe-Core和Xe-SS)、Sapphire Rapids、Mount Evans和Ponte Vecchio——都需要一个单独的专栏。令人高兴的是,我的朋友兼同事史蒂夫·莱布森已经开始在EEjournal.com网站上开了一个关于ipu的专栏,特别是关于Mount Evans的专栏哦,哦,那味道!英特尔ipu能收拾云数据中心的烂摊子吗?).

我能说的是,我在2021年英特尔架构日上看到的一切都让我感到震惊。在很多情况下,我都大吃一惊。在某些情况下——比如维奇奥桥——我想可以说,我的赘肉从未如此令人惊叹过。我迫不及待地想看到基于这些新架构的设备进入市场(我已经渴望拥有一台Alder lake驱动的笔记本电脑)。你呢?对于你在这里看到的东西,你有什么想法想要分享吗?

关于“英特尔的新架构进步将定义下一个计算十年吗?”

    1. 我不确定“嘶嘶声”——但我知道我的已经被搞糊涂了——我发现我的大脑很难被简单的8位微处理器LOL时代的复杂性所包围

  1. 还是老样子。英特尔发明了多核,并把它扔到墙外,让全世界都知道如何编程。多线程也不是通用的性能助推器,但它为复杂性打开了大门。

    分支预测,无序。超标量无意义可以追溯到CDC和IBM360 model 91,当时程序是用汇编程序编写的。高速缓存是为矩阵反演发明的IBM 370模型85汇编程序。我想看看3级缓存是如何合理的。我知道,这是直觉
    明显“……胡说!

    微软在发现FPGA可以在比FPGA高10倍的时钟频率下执行超级标量运行后,将FPGA投入数据中心。请看“牛肉在哪里”的研究论文。

    没有人能找到一种方法来证明管道延迟不会影响性能。忽略它,它就会消失....

    现在英特尔进入了FPGA业务,他们似乎可以投入一些资源来简化FPGA设计,而不是偏离了这个方向。他们知道Dijkstra教授所说的“复杂性就是卖点”
    说。

    他继续发明了“分流场算法”,这是当今编译器的核心。

留下回复

有特色的博客
2022年12月14日
随着每一个新的工艺节点的出现,都需要更复杂的要求来确保硅的工作。……
2022年12月14日
快到新年了,像往常一样,CES(以前被称为消费电子展,但现在只叫它的首字母)将于1月5日至8日周四举行。Cadence将于1月5日至7日在那里。星期四的营业时间是上午10点到下午6点,上午9点到下午6点。
2022年12月13日
我们将分享数字化存储芯片设计和验证节省时间的四种方法,并探索先进存储设备的关键芯片设计和验证工具。数字技术可以加速内存设计和验证的4种方法首先出现在从…
2022年12月8日
这个世界准备好迎接下一个封装的变形了吗?

有特色的视频

基于软件的自检作为处理单元的安全机制

Synopsys对此

了解Synopsys ARC软件测试库如何帮助您在动力和区域预算范围内进行高性能安全关键型汽车设计。

了解更多

特色粉笔谈话亚博里的电子竞技

牵引逆变器

英飞凌

牵引逆变器不仅是电力传动系统的组成部分,对车辆运动至关重要,而且在涉及到电动汽车的能源效率和功能安全性时,它们也会产生很大的影响。在本集Chalk Talk中,Amel亚博里的电子竞技ia Dalton与来自英飞凌的Mathew Anil聊天,讨论牵引逆变器在电池电动汽车中扮演的各种角色,牵引逆变器中的碳化硅技术如何减少电动汽车电池的尺寸,牵引逆变器如何帮助降低成本,功能安全等。

点击这里了解更多关于汽车IGBT & CoolSiC™MOSFET模块的信息

Baidu