EEJournal

专题文章
现在就订阅

进一步的CNN IP集成

Synopsys对此宣布他们EV6x系列

不久前,我们发表一篇描述节奏的新Tensilica愿景C5处理器。我们使用的机会给一个简短的底漆卷积神经网络(cnn)和他们的角色在视觉处理。事实上,如果你想要快速CNN进修,我鼓励你回到。

在讽刺时间(在复苏的风险争论“讽刺”到底是什么意思),当记者,我在DAC Synopsys对此谈了他们新的视觉解决方案。和它构建好之前的故事。

让我们回到之前的早期概念之一。这是事实,在这之前,美国有线电视新闻网通常是加速通过使用专用块专门处理卷积,卷积是计算密集型操作。你可能会简单地认为这是以下几点:

我们看到这是一个右边CNN(高度简化的),通过这种老方法实现。视觉处理器在这种情况下的手卷积加速器连接到总线,处理所有其他操作本身。这个处理器DSP或GPU和CPU或它们的一些组合,至少理论上如此。颜色在CNN层在右边显示哪些块处理。

这里的挑战是,你有耗时的切换操作处理器代表的加速器在公共汽车。什么节奏与他们讨论C5处理器是一个CNN引擎,在一个单一的IP块,可以处理整个CNN不来回总线完成工作。我简单说明如下:

这看起来几乎一样的图之前,但卷积加速器是取代了一个引擎,这个引擎可以处理完整的CNN,所显示的所有层正在蓝色的右边。这个紧缩之间的交互在CNN卷积和non-convolutional计算。节奏,视觉C5会远景P6平起平坐,在一起,他们会完成工作——大概是更有效地比技术将一个基于硬件加速的设计。

Synopsys对此说他们已经进一步集成一个级别,将视觉处理器和CNN引擎在一个街区。大致说来,会看起来像这样:

还反映了之间的紧密耦合的CNN引擎和处理器做所有的non-CNN东西。所以我们开始处理器的解决方案做除了实际的卷积,从那我们搬到了一个解决方案,处理器可以卸载整个CNN到另一块,那里,一块带在一起,而不需要来回骑师主要的公共汽车。

更具体地说,Synopsys对此EV6x块有一个架构,如下。

图片由Synopsys对此

斯图是一个流媒体传输单位,提供低开销DMA服务之间的内部总线(从那里,可能一直到系统总线)和内存共享的集群。这回声节奏双端口乒乓球的方法,其中一块将工作块而另一个被加载。但在这里,装载是由一个单独的单位有自己的接口。

当然,这种集成多并不重要如果没有提高性能。Synopsys对此声称4.5麦迪/ s, 16 nm节点上实现(当然,由于这是IP)。

有一点,表演的背后的故事。显然,速度取决于你有多少工作要做,和你要做多少功部分取决于你使用的数据精度。理想情况下,我们会做32位浮点计算,但我们说的小型嵌入式设备;定点是可取的。

在定点域。节奏可以做8位(1麦迪/ s)或16位(512年通用汽车金融服务公司(GMAC) / s),同样,在16 nm。但Synopsys对此数据显示,8位会导致太多的识别错误,而16位可能过分了。

图片由Synopsys对此

12位,根据这一数据,提供良好的结果更少的功率和面积。Synopsys对此表示,12位乘法器是超过一半大小的一个16位的版本,而且,所有的乘法,可以增加。因此,他们有了与一个12位的解决方案(尽管它们可以处理cnn训练了8位引擎)。他们声称2麦迪/ s / W的功率效率。

完整的EV6x IP块如下所示。

图片由Synopsys对此

图在图

当讨论如何设计完成,诸如“图”,辗转反侧,除非你的厚这个东西,可能会让人困惑。我当然有困惑,Synopsys对此的皮埃尔。波林帮我打开包裹发生了什么。这真的让视觉应用程序的设计流程。

大部分的讨论围绕着CNN本身。但还有更多全面的设计不仅仅是CNN。处理图像可以表示为一个数据流图,代表,在其他选项,使用一个开源格式,OpenVX。图中的每个节点代表一个任务。一些可能CNN-related,但不一定别人。你可能有一些过滤,降噪,颜色转换的隔离,任何数量的函数,不包括CNN。最终,数据可能被送到一个CNN对图像内容的分类。

每个节点需要一个实现。让我们暂停CNN节点一会儿,看别人。一些常见工具库的实现函数,这样代码就可以来了。自定义节点,另一方面,必须手写。而C是一种常见的语言,它是常见的intrinsic C工艺视觉代码中使用。

但有一个OpenCL标准编码等功能,和这是一个C的一个子集变体叫做OpenCL C。这是又一个独立于平台的方式编码的节点。这就是Synopsys对此支持;不久,是如何工作的。

所以你有这个高级图形代表整个应用程序。图是独立于实际的处理平台,它允许您设计和测试一个算法,然后找出哪些平台是最好的实现算法。我们看到两个节奏和Synopsys对此平台,但可能有更多。他们通常不均匀,可能有一些组合多个cpu、gpu,需求方,cnn -仅举几例。实现应用程序图意味着映射图中的节点——这是一个任务——不同的核心平台,然后编译每个任务的节点。

这就是non-CNN节点处理。同时,要求CNN的节点,培训需要配置CNN。正如我们所看到的,这是通过任意数量的训练设施,其中最著名的是咖啡,来自加州大学伯克利分校,并从谷歌TensorFlow。

这个培训需要大量的计算,因此它的云。什么结果是代表CNN一个图表,通过培训与适当的权重或系数计算过程。这张图是完全不同于更高级的应用程序图。最终,该工具流结果在静态程序代表这对执行在美国有线电视新闻网CNN引擎。

因为Synopsys对此有通用的处理和CNN引擎在一块,它不仅可以实现一个CNN的图,但整个应用程序图,假设有足够的计算资源。Synopsys对此的工具流支持这似乎是一个独特的能力的完整应用程序图,与其相关的代码位和cnn和优化映射到EV6x平台。

作为一个程序员,你有一定的能力直接映射是如何发生的,但是,在大多数情况下,它的打算是一个自动的实现应用程序图,优化了性能,包括直,同步,内存映射和类似的配角,这样在一起时一切顺利。

一个给定的核心可能有多个节点映射到它。在这种情况下,系统将动态地加载适当的任务时的代码运行。

整个图代表了潜在的任务并行性(如节点1和2以上);在一个节点,使用的工具也auto-parallelize数据向量处理器。所以在顶层,你功能并行性;进一步下降,数据并行性。(回声向量VLIW实现我们看到与节奏,尽管我们讨论有CNN引擎的一部分。)

所以我们看到迁移与卷积加速器通用处理器的通用处理器连接到一个完整的CNN引擎通用处理器与CNN引擎集成在一块。这应该给你视觉应用设计者很多玩当你找出最好的方法来处理图像和视频。

更多信息:

Synopsys对此视觉处理器

4对“进一步CNN IP集成”的想法

  1. 图显示了两个豹子的图片识别错误。
    “正确认识”旨在确定都是豹子吗?
    还是为了区分两个不同的豹子的面孔(不同的点模式)?
    前者相对简单,后者更像是安全面部识别人类试图做什么。
    一个图像处理系统如何执行更困难的任务是一个更好的衡量系统的能力。
    或者这只是一个假设的性能图,不是基于任何目的的测试。
    (我们工程师关心困难的问题的答案。)

  2. 好吧,我有一些评论关于识别从Synopsys对此数据:

    ”在本文中所示的特定示例使用AlexNet图,解释
    “正确认识”意味着CNN已确定,两者都是豹子。

    更普遍的是,CNN图也可以用来区分具体区分
    一个动物的实例,或任何特定的对象。cnn肯定是被使用
    人脸识别的安全应用。

    图表中所示的识别误差是客观测量使用
    比较各种CNN或经典的图像处理算法。”

留下一个回复

有特色的博客
2023年8月9日
Recogni构建世界最好的芯片,功能齐全的自动车辆视觉推理。Tessolve正在开发一个ASIC很低功耗touch-sense控制器芯片。之后是一个国际造船集团拥有超过50个造船厂……
2023年8月9日
看看2022年的芯片和科学行为已经影响了半导体行业通过推进合作,发展的EDA工具,和培养科技人才。后一年后,芯片行动机会指数首次出现在芯片设计....
2023年7月21日
对风笛有许多悬而未决的问题,尤其是如何得到一个爱好者停止演奏他们....

有特色的视频

Synopsys对此224 g以太网PHY IP互操作在2023台积电研讨会

Synopsys对此

在台积电2023年研讨会,我们展示了一个成功的224 g以太网PHY IP互操作示范与底板频道。看各种阴谋,ADC直方图和优秀的眼图的结果。

了解更多

了纸

什么改变了口径对IC设计意味着什么?

西门子数字行业软件

集成电路(IC)设计公司不断寻求盈利交付产品有更多的功能,可靠性和性能,同时减少投放市场的时间。为了实现这一点,一个精心策划的左移位策略可以释放关键时间和资源交付时间表,同时提高产品质量。在这个技术论文,你就会发现可用的工具和技术,以及如何实现左移位验证策略影响集成电路设计者和不具有工程师。

点击阅读更多

以注入式教学法亚博里的电子竞技

下一代的开关式稳压器
功率模块电子系统设计可以带来各种各样的好处包括减少板空间,缩短上市时间和容易采购的材料。注入式教学法在这节课中,阿米莉亚道尔顿亚博里的电子竞技和路易钻孔RECOM讨论RECOM切换监管机构所带来的好处,他们的先进的3 d权力包装的细节以及如何利用RECOM的专业与你的下一个设计。
2023年1月9日,
27239的浏览量
Baidu