我非常喜欢的一种食物是培根三明治,但这不是我想在这里谈论的内容。我喜欢的另一件事是,看着一家初创公司从创始人眼中的一闪一闪发展到推出第一款产品。
在我们曾经称之为2020年5月的时间的迷雾中(我写这些话的时候已经是两年前了),吉姆·特里写了一篇关于2020年5月的专栏文章创建通用处理器这里是EE Journal。本专栏的重点是一种名为神童那是由一家叫做Tachyum.
就像吉姆当时对他切姆的那些人所说的:“他们的目标非常大胆。Prodigy将比英特尔(Intel)的至强(Xeon)更快,但耗电量只有后者的十分之一。它的拥有成本(TCO)将比目前的服务器处理器低4倍。它将比ARM的设计占用更少的硅。它将同样沉着地执行人工智能和超大规模服务器工作负载。单个版本的芯片将在16到128个核之间扩展,所有这些都在同一个6400球的封装中。它将比英特尔或AMD的芯片便宜三倍。最后一点应该不难实现。其他的吗?我们得等等看。”
就在吉姆写专栏的一年后——也就是你正在阅读的这篇文章的一年前——我写了自己的专栏,提出了这个问题:我们准备好迎接人脑级别的人工智能了吗?我只是在回想那篇专栏。我们说话的时候,我在屏幕上打开了它。(当我说“说”时,我是在比喻,比喻地说,这句话让我想起了老程序员的那句话:“为了理解递归,必须先理解递归。”)在那篇专栏文章中,我可能已经提到过约翰尼和炸弹很好,特里·普拉切特(但是)我想我逃脱了正如巴兹尔·弗尔蒂(Basil Fawlty)的名言)。
我提出这本大胆的书的原因是,它包含了一个叫做塔奇翁夫人的人物——一个推着超市手推车的老妇人,她一边嘟囔着意想不到的话语,一边发出无人能听懂的神秘低语。说塔奇翁夫人在"不可言说"里加了"该死的"也不算过分我们最终发现,她的手推车就像一台时间机器,这就解释了故事中很多让我们困惑的事情,但我们还是尽量不要误入歧途。我只想说,每当我听到塔奇扬的消息,它都会让塔奇扬夫人出现在我的脑海里(我笑着称之为)——感谢你没有和我一起在这里(引发疯狂的笑声)。
我在这里犹豫的原因是,等待即将结束,Tachyum正式推出了Prodigy,它被称为“世界上第一个通用处理器”。其基本思想是,人们目前正在使用不同类型的处理器来执行不同类型的任务——用于通用处理的中央处理单元(cpu),用于并行处理大块数据的图形处理单元(gpu),用于图形和算法的硬件加速,以及用于人工智能(AI)应用的AI加速器。
一种非常简化的可视化方法是,cpu在标量值上做得最好,gpu在向量值上做得最好,AI加速器在矩阵值上做得最好。Prodigy所做的是将CPU、GPU和TPU的功能统一到一个在单个单片设备上实现的单一架构中。
Tachyum的Prodigy是世界上第一个通用处理器
(图片来源:Tachyum)
在计算的上下文中,TLA(三个字母的缩写)TPU通常被假定为表示“张量处理单元”,这可能是注意这一点的好时机。这是谷歌专门为神经网络机器学习开发的AI加速器专用集成电路(ASIC),特别是使用谷歌自己的TensorFlow软件。谷歌于2015年开始在内部使用tpu,并于2018年供第三方使用。然而,在本专栏的上下文中,我们将TPU理解为“Tachyum Processing Unit”。
采用先进的5nm工艺技术,Tachyum的第一款商业产品——Prodigy Cloud/AI/HPC超级计算机处理器芯片——提供4倍于最快的至强的性能,在HPC上的原始性能比NVIDIA的H100高出3倍,在AI训练和推断工作负载上的原始性能高出6倍,在相同功率下的性能最高可达10倍。
基于fpga的Prodigy原型(图片来源:Tachyum)
Tachyum的工作人员表示,Prodigy已经准备好克服不断增加的数据中心功耗、低服务器利用率和性能扩展停滞的挑战。新发布的Prodigy处理器的一些亮点如下:
- 128个高性能统一64位内核,最高运行频率为5.7 GHz
- 16个DDR5内存控制器
- 64个PCIe 5.0车道
- 支持4插座和2插座平台的多处理器
- 风冷和液冷数据中心的机架解决方案
- SPECrate 2017整数性能约4倍英特尔8380和约3倍AMD 7763HPC
- 双精度浮点性能是NVIDIA H100的3倍
- AI FP8性能为NVIDIA H100的6倍
与其他CPU和GPU解决方案不同,Prodigy被设计为从头开始处理向量和矩阵处理,而不是事后才想到的。Prodigy的向量和矩阵特性包括支持一系列数据类型(FP64, FP32, TF32, BF16, Int8, FP8和TAI);2×1024-bit每核矢量单位;AI稀疏性和超稀疏性支持;并且当跨越缓存线时,没有对矢量加载或存储不对齐的惩罚。这种内置支持为AI训练和推理工作负载提供了高性能,提高了性能,并降低了内存利用率。
正如Tachyum公司的人喜欢告诉任何愿意倾听的人的那样,“Prodigy明显优于目前在超大规模、高性能计算和人工智能市场上可用的性能最好的处理器。Prodigy为云工作负载提供了最高性能x86处理器的3倍性能,为HPC提供了最高性能gpu的3倍性能,为AI应用程序提供了最高6倍性能。通过使用更少的电力提高性能,Prodigy通过提供无与伦比的碳足迹减少解决了数据中心可持续增长的问题。随着人工智能的普及,这一点尤其重要:作为这个新世界市场的一部分,Prodigy将实现前所未有的数据中心TCO节约。”
为了支持这一切,Tachyum的伙计们花了很多时间向我展示了一系列令人难以置信的图表和图形,包括以下内容:
- Prodigy vs. x86 (AMD 7763 & Intel 8380): FP64浮点原始性能。
- Prodigy vs. Nvidia H100 GPU (H100 DP & H100 AI): HPC和AI
- Prodigy vs. AMD MI250X GPU (MI250X DP & MI250 AI): HPC和AI
- Prodigy vs. x86: SPECrate 2017 Integer (AMD 7763性能和Intel 8380性能)
- Prodigy vs Nvidia H100:机架级比较(H100 DGX POD vs Prodigy风冷机架和液冷)
我并不像看上去那么蠢(但是,谁会那么蠢呢)。使用我那台巨大的wetware处理器(这是我最喜欢的三个器官之一),我发现了所有柱状图中微妙的模式,即与竞争对手相比,代表Tachyum Prodigy的所有柱状图都傲立在人群中。
Prodigy将于今年晚些时候开始取样,2023年上半年开始批量生产。我不知道你怎么想,但我已经等不及见到我的第一个天才芯片了。你呢?你有什么想法想和我们分享吗?
嗨,麦克斯,和往常一样,读起来很有趣。两个问题:
1) 64000球栅阵列。球是否排列成多维稀疏矩阵?你能帮我把电路板摆好吗?
2)编译器、模拟器、ide、设计工具等等怎么样?
3)还有一个附加的电子商务学位问题:它们有明确的例外吗?
——金·鲁宾
(退休后吉姆·特利的死对头)
嗨,退休的吉姆·特里的退休对手——我认为是6400英镑,而不是64000英镑——但我同意他们有很大的勇气向我们展示这个方案
关于编译器、模拟器、ide等,它们有一个完整的生态系统。我应该多写点的。如果你想知道更多,请发邮件给我max@clivemaxfield.com(提醒我这是关于什么的)我会和你分享更多的信息。
我们有精确的例外-我会让他们在这里回答这个问题-注意这个空间
关于第三个问题
“3)还有一个附加的电子商务学位问题:他们有明确的例外吗?”
是的,我们有完全精确的例外。
1.嗨,麦克斯,和往常一样,读起来很有趣。两个问题:
1) 64000球栅阵列。球是否排列成多维稀疏矩阵?你能帮我把电路板摆好吗?>>>>是6400
>>>>其密集的2D矩阵和Tachyum将为其客户提供参考设计,包括我们4个插座的PCB布局参考设计。
2)编译器、模拟器、ide、设计工具等等怎么样?
>>>>我们的早期采用者已经可以使用它们,我们网站上的视频中有它们的演示。
3)还有一个附加的电子商务学位问题:它们有明确的例外吗?
>>>>是的Prodigy有精确的异常模型。
但它能运行《孤岛危机》吗?
使用什么类型的FPGA ?Xilinx吗?
你有什么特殊的技巧来超越FPGA的ASIC ?
6xTimes FP8到Nvidia H100你已经模拟了Nvidia张量核?你怎么比较呢,请发布一些模型推断或训练的输出视频?
我测试了谷歌TPU, GPU的性能要好得多,可能耗电量更低,但你的耗电量高6倍,非常奇怪…
为什么来自塔奇姆的巫师无视我的问题?
嗨,inder -我的错-我没有检查评论-我会让Tachyum的人回应- Max
很抱歉耽搁了。
抱歉@inder延迟了
使用什么类型的FPGA ?Xilinx吗?
>>>> INTEL(前Altera) FPGA
你有什么特殊的技巧来超越FPGA的ASIC ?
>>>>没有特别的技巧。FPGA的性能并不优于ASIC。
6xTimes FP8到Nvidia H100你已经模拟了Nvidia张量核?你怎么比较呢,请发布一些模型推断或训练的输出视频?
>>>>它是基于NVIDIA数字使用tensorcore, FP8和稀疏性。
我测试了谷歌TPU, GPU的性能要好得多,可能耗电量更低,但你的耗电量高6倍,非常奇怪…
>>>>评论是基于TPU的信息。
希望这能回答你的问题!