几周前,我在喋喋不休(这是我的习惯),我提到我的朋友杰伊·道林向我介绍了一种有趣的模拟计算机模拟的东西(,)。正如我当时所说,我花了很长时间才意识到“that”是“The analogue Thing”的缩写,而不是它名字中某个深奥的部分。
作为这个的一部分,杰还给我指了一个精彩的YouTube视频在模拟计算机上Veritasium这展示了模拟函数的各种很酷的机械实现,比如对多个正弦波求和。整合的机械模拟让我惊叹于我们祖先的聪明才智。
这让我想起我之前沉迷于Veritasium的另一个视频未来的计算机将完全不同.
我刚刚重看了一遍这个视频。我现在才意识到,演讲者德里克·穆勒(Derek Muller)的桌子上就有一台前述的that机器。在视频中,他演示了使用这个小美女来模拟一个阻尼质量在弹簧末端振荡(这是他们让我在时间的迷雾中做的事情)。
但我们离题了,视频一开始,Derek提到,几百年来,模拟计算机是地球上最强大的计算引擎,可以预测日食和潮汐,控制高射炮。德里克接着指出,固态(半导体)电子学的出现导致了数字计算机的兴起,以至于我们现在使用的每一台计算机本质上都是数字的。接下来,我们被告知“一系列因素的完美风暴正在为模拟技术的复兴奠定基础”(我觉得在会议的这一点上,鼓声是合适的)。
这段22分钟的视频从头到尾都值得一看。然而,如果你时间不够,视频中3:50开始的对我们大脑中神经元如何工作的解释(通过加权开启/关闭),提供了一种非常好的方式来可视化我们用于实现当今人工智能(AI)和机器学习(ML)解决方案的人工神经网络(ann)的基础。
我担心我有点鬼鬼祟祟,因为-一旦你开始看这部分-你会发现自己被视频的其余部分迷住了,在此基础上,你不妨做一个朱莉·安德鲁斯和“从头开始——这是一个很好的开始,并且已经结束了它(the快闪版比利时安特卫普中央火车站的这幅画总是让我高兴地微笑)。
你知道吗,在2015年,ResNet人工神经网络实现了所谓的“前5名错误率”只有3.6%,这比人类的平均表现5.1%要好(详情请参阅视频)。
所有这些都让我们看到一个事实,正如Derek所说,“所以未来是明确的:我们将看到对更大的神经网络的需求不断增长。”他接着说,“这是一个有几个原因的问题。一是能源消耗。训练一个神经网络需要消耗相当于三个家庭一年的用电量。另一个问题是所谓的冯·诺依曼瓶颈。实际上,每一台现代数字计算机都将数据存储在内存中,然后根据需要通过总线访问它。在执行深度神经网络所需的巨大矩阵乘法时,大部分时间和精力都花在获取这些权重值上,而不是实际进行计算。最后,摩尔定律也有局限性。几十年来,芯片上晶体管的数量大约每两年翻一番,但现在晶体管的大小已经接近一个原子的大小。因此,进一步小型化存在一些基本的物理挑战。”
这就是为什么这是使用模拟技术执行计算的完美风暴的关键:(a)数字计算机正面临基本的限制,(b)神经网络的使用正呈指数级增长,(c)神经网络所做的很多事情归结为矩阵乘法,(d)神经网络实际上不需要数字实现所提供的精度水平。正如Derek所指出的,“无论神经网络有96%或98%的信心,图像中包含一只鸡,这都不重要,它仍然是一只鸡。”
这就是视频中Derek前往德克萨斯州参观一家模拟创业公司的重点神话的人工智能他因创造运行神经网络的模拟芯片而出名。
我必须承认,我对我所看到的感到非常兴奋,我立即联系Mythic的工作人员,请他们告诉我更多信息。简而言之,Mythic的伙计们说,我们目前看到的是数据的指数级增长和人工智能的爆炸式增长。当涉及到边缘推理时尤其如此,我们很快就会有数十亿用户和数千亿设备运行算法,这些算法要求每秒兆兆ops和千兆ops。
人工智能丰富的现有应用包括视频监控摄像头、nvr(记录和存储视频片段的计算机系统)、智能家居设备和工业机器视觉。新兴的人工智能应用包括轻型无人机、交互式AR/VR以及消费者和零售机器人。Mythic公司的人说,人工智能处理器预计很快就会像今天的cpu和图像传感器一样普遍,到2024年,市场机会将达到130亿美元。(嘿!这么快!我还没有准备演讲,我也没有衣服穿!)
现在,事情变得聪明了。由于我是一名数字设计工程师,当我听到“闪存单元”这个术语时,我想到的是带有浮动门的晶体管,可以装载/不装载电子,因此分别代表0或1。相比之下,通过控制浮动门中的电子数量,Mythic的工作人员可以使用这个单元表示256个不同的值(相当于8位存储空间)。如果这些值用于表示ANN中的权重(系数),则每个Flash单元可用于在其激活电压与其系数之间执行乘法(电压x电导)。来自一列中所有Flash细胞的电流是相加的,这意味着我们可以把每个Flash细胞看作是一个突触,每列细胞代表一个神经元。
你还记得之前我说过Derek说过,“当执行深度神经网络所需的巨大矩阵乘法时,大部分时间和精力都花在获取这些权重值上,而不是实际进行计算。”以Mythic的技术为例,重量值已经存储在浮动门中。
所有这一切的最终结果是Mythic的第一款设备M1076,它采用了现在被认为是便宜而令人喜欢的40nm工艺技术,每秒可以执行25万亿次数学运算,同时只消耗大约3瓦的功率(一个等效的数字平台大约有1/3高的鞋盒大小,配备了涡轮风扇来消耗100瓦的功率)。
见见Mythic 1076(图片来源:Mythic AI)
现在,有各种各样的细节,我没有时间和精力(没有双关)进入,比如有很多内部校准(使用模拟和数字技术),以确保设备持续达到8位的准确性,也模拟神经元的层是空间与接口在数字域,但底线是M1076有大约8000万个突触的能力。这些突触可以根据需要分层排列。也就是说,理论上你可以有一层有8000万个突触,或者100层每层有80万个突触,或者8000万层每层有一个突触。
当然,很少有人愿意单独购买芯片,然后开始试验。所需要的是一个带有某种接口(比如PCIe)的开发板,可以插入计算机。出于这个原因,Mythic的人员提供了一个完整的基于m1076的家族,从芯片到开发板到评估系统。
来看看M1076家族(图片来源:Mythic AI)
但是等等,还有更多,因为Mythic还提供了对各种主机平台的支持-包括X86, NVIDIA Jetson Xavier NX/TX2, Qualcomm RB5和NXP i.MX8M -运行Linux ubto或Linux for Tegra (NVIDIA),具有预训练的深度神经网络(DNN)模型,用于对象检测器(YOLOv3),姿态估计器(OpenPose V1.5 Body25)和分类器(ResNet 18和ResNet50)。
我不知道你是怎么想的,但就像经典吉尼斯广告,我认为这是“聪明!”我从来没有想到过用一列Flash细胞突触形成的模拟神经元来创建ann的想法,但现在我已经接触到了这个概念,我认为这可能预示着人工智能推理的新一天。一如既往,我们确实生活在一个激动人心的时代。你呢?你有什么想法想和我们分享吗?
老实说,我等Mythic芯片有点无聊,我认为模拟AI方法会引起人们对混合信号EDA的兴趣。4年前,我在那里面试了一份非ams的工作,我没有得到这份工作,但现在回想起来,他们让我做一些可以应用人工智能的工作,人工智能芯片公司实际上并没有将人工智能应用到制造芯片的任务中,所以他们是否知道如何将人工智能应用到任何事情上是值得怀疑的。
我最近在这个区域看到了各种各样的活动——加上一些使用光学技术的类似活动——我认为闸门可能很快就会打开(我刚刚派管家去取我的惠灵顿靴子