然而,一个神经网络加速器——EEJournal - 亚博首页官网手机登录,亚博yabovip2019进入

另一天,另一个神经网络解决方案。似乎是今年的味道,不足为奇的是,考虑到机器学习在上升。今年早些时候,我们写了节奏的解决方案。然后我们写Synopsys对此的解决方案。今天我们看另一个,这一次从想象技术(IMG)——他们PowerVR 2 nx。和这个讨论让我们审查的一些利弊不同的配置,我们看着。

之前我们也讨论过加速器的卷积层卷积神经网络(CNN)。今天,我们还讨论一个加速器,但对整个神经网络不仅卷积。它能做的除了cnn类型的神经网络。

(图片由想象技术;高亮显示)

上图显示了类型的神经网络不仅可以构建(突出),但还离线流程培训。这一平台执行,如下所示。

(图片由想象技术;高亮显示)

而他们忙自己的不知GPU实施,说它相对较小,他们说这个加速器所示的处理器可以处理任何品牌,不仅仅是IMG品牌。

平台架构

这种加速平台的架构如下所示。

(点击放大;图片由想象技术)

这些层的主要一点有一个通用的引擎,做神经处理——也就是说,使用一组训练重量产生净的一个阶段。还有其他内置块处理等其他行政层的池。像节奏,但与Synopsys对此块连接到一个单独的主机处理器。我们会讨论更多关于谁在一分钟内,不认为这是一个好主意。(是的,可能不难猜。)

这台发动机的独特功能之一是能够使用任意位宽度对权重和数据。这是与节奏支持8位和16位字段和Synopsys对此支持12位字段。此外,似乎跟不上训练,通常要么是8位或16位的领域的结果。

后者的观点是原因之一,节奏更喜欢规范化宽度。但他们也表示担忧,使用奇怪的一点宽度使cpu和这样的数据低效的过程与字节或字之间对齐数据更好的工作。

优化的位宽的原因是,这样你就可以得到你想要的结果尽可能少的碎片。少位意味着更少的带宽需要传递权重和数据时,更不用说较低的权力。如下图所示,得到显著节省1%精度的变化(一个相对的数量从一组图像;它可以随类型的形象和理想的分类特异性)。

(图片由想象技术)

所以你失去你的思维效率获得通过不结盟字段大小?IMG说,“没有。“他们垫的数据给单位是一致的。现在…如果你想象使用,3-bit字段,然后填充他们8位,好吧,你会比数据填充。这听起来也不高效。(虽然似乎真的4比特对齐,不一定8位,因为他们说,4比特字段不需要填充)。事实证明,但是,当这些领域交流,他们甚至装成128位或256位块——而且只有块需要填充。“浪费”,大大减少填充比特。

他们进一步补充说,“注意重量只是NNA内部使用,因此对齐并不重要。…的数据,使用的格式取决于谁使用它。如果是NNA我们记忆可以再包爆破效率和带宽。如果是数据,CPU或GPU或者别的事情需要处理,那么我们就可以装不同的格式作为校准和数据类型将影响其他IP块的效率。基本上,与我们所有的知识产权,我们非常了解系统效率和优化,并提供大量的数据格式的灵活性与字节对齐,确保没有问题。”

的训练,它通常始于浮点数。那么你必须离散化有点宽,如果你使用一个不规则的号码,那么你可能不得不回去再培训调整权重。有许多方法再教育和减少解决方案的总体规模;它通常是一个迭代的过程。所以它可以更多的工作不仅仅是使用8位或16位,但他们看到的好处是值得的应用程序没有无限的资源。(你可以找到更多关于底部再培训相关的演讲)。

还请注意,不是所有的层都需要相同的宽度。你可以开始宽度较宽的数据,减少他们当你移动通过网络层,如下图所示。

(图片由想象技术)

它规模如何?

可伸缩性是另一个产品我们已经看到之间的争论点。节奏使点,因为他们的加速器是脱离主机处理器,您可以规模CNN部分和主机部分是彼此独立的,注意的是,与Synopsys对此块,如果你需要更多的CNN资源比在一块,你必须复制主机处理器。

所以我有一个谈话Synopsys对此承担它。和听起来比较不完全像我想的那么简单。它变得有点靠不住的,所以容忍我。

首先,我真的不应该使用这个词“主机”:与任何这三个解决方案,可能会有另一个处理器系统中这是一个“主要”CPU,这将调用愿景加速度(或其他神经网络是必要的,在IMG的情况下)。这将是主人;这些集成了一个主机。

这也证明调用处理器Synopsys对此EV61 + CNN块一套“CPU”可能错误的期望是一个主机或类似于节奏的P6视觉处理器。当我覆盖Synopsys对此版本,我对比了Synopsys对此块的组合P6和C5 CNN加速器。它可能不是那么简单。

以下是我认为我理解:

卷积层需要很多multiply-accumulate (MAC)实例。一个纯粹的卷积加速器将主要由这些。
其他层可能需要其他功能-像矢量和标量处理资源。
预处理和后期处理也将利用矢量和标量。

问题是这些块。P5和EV61(与周边商品,是“CPU”部分EV61 + CNN)是加权矢量和标量。C5有很多mac电脑和一些矢量和标量,并呼吁更多的P6后者。CNN的一部分Synopsys对此块更偏重mac。这使得EV61 + CNN介于C5和C5 + P6的功能。但他们相信EV61 + CNN联合有大致相同的硅区P6,不到C5。

IMG呢?从上面的图片中,你可以看到他们有块non-CNN层以及卷积引擎本身——其中一些是在硬件,完成更为复杂的比较。所有层的目的是可以在这个块。他们看到一个外部处理器处理预处理和后期处理。

回到扩展的问题,然后,节奏是依靠你的能力规模c5和p6彼此独立的。Synopsys对此表示他们有两个缩放级别。第一个变化每pre-post-processor CNN资源的数量,尽管这扩展他们做自己,有两个不同的产品有两个不同数量的CNN资源。第二个扩展方法是通过复制多个块。

Synopsys对此的矢量和标量资源”CPU,“所以,元素是需要实现所有层——这意味着你不能真的只添加更多的CNN资源还没有添加更多的“CPU资源;两者都是需要的。因为EV61 + CNN C5和P6 + C5,缩放Synopsys对此块不一定喜欢和每个实例添加一个P6。你能想到的Synopsys对此处理器的矢量和标量资源分为P6和C5的节奏的版本。

扩展IMG意味着严格神经网络资源。由于预处理和后期处理是由一个不同的,外部CPU、神经网络资源和前/后处理资源可以独立了。然而,non-MAC逻辑块和每个实例被复制。

当涉及到性能、力量和区域(PPA), IMG下面的图放在一起。毫不奇怪,职位他们的新产品,而顺利地比其他解决方案——从他们和从竞争对手(匿名)。

(图片由想象技术)

适应性和流

他们设法让应用程序的工作方式在很多不同的平台上是通过一个通用款(深层神经网络)的API。应用程序API编写;API,然后通过一个驱动程序绑定到底层硬件。这一层的抽象使得更好的移植,甚至实验的最佳平台解决方案。

(图片由想象技术)

设计流程本身,见下图。有三个基本步骤:培训、优化和实现。第一步都是关于找出网络,而不用担心它会运行。这不是关于速度;它是关于准确性。

中间部分会在任何可能发生的再培训。所示的迭代特性并不是;有一个循环介于第一和第二步骤。

只有在最后一步,你开始找出平台性能需要跟上无论你输入数据流的处理。如果你限制哪些平台可以使用(或承担使用),然后,如果你不能管理它的网络设计,你可能要回去重新优化,以减少网络的复杂性。

(图片由想象技术)

这是最新款加速器的压缩版本。更多的细节在下面的参考。

更多信息:

想象技术PowerVR 2 nx神经网络加速器

更多的培训

2对“一个神经网络加速器”的想法

布来安梅奥 说:

2017年10月30日凌晨8:54

你认为想象力技术的神经网络方法加速?

登录到回复
1. 凯文说:
  
  2017年10月30日下午4:54点
  
  想象力有多年擅长的东西,似乎是不可能的他们可以做的更好在这个特定领域的高水平的竞争。
  
  从我的角度来看NN加速度看起来很像电路模拟,人们一直在加速,多年。我期待技术出血的一种方法,但我怀疑它可能会从新的AI家伙EDA,与芯片等民间神话AI被重用高速实数建模。对EDA公司将有问题的,因为人工智能芯片体积定价使模拟器市场破坏的目标。
  
  登录到回复