神经网络在一块——EEJournal - 亚博首页官网手机登录,亚博yabovip2019进入

(编者注:这篇文章已经更新。)

节奏最近宣布神经网络处理器的IP。是非常简单的跳进架构,从那里开始,但是有这个东西,我不认为是我,也许我们应该先处理。

我看到神经网络扔得到处都是。在这些地方是有描述的神经网络是什么,不同的体现。所以专家与专家,或者每个人都做一个好地假装知道这件事。

但问题是,如果这样可能有用但你必须让自己通过提高你的手,说,“对不起先生/女士,请您备份和解释到底要你在说什么?“那么你可能选择放弃调查技术。很容易说,“哦,他们并不适用于我在做什么,”,不去管它。

好吧,这是我提高我的手——或者是我,直到我做了一些挖掘。之前我们讨论的细节节奏的处理器,有很多想法,我们应该清理第一,最重要的是神经网络—特别是,卷积神经网络(cnn)和复发性神经网络(RNNs)。我们将这个短暂的,但是希望不要太短暂。对于你们中那些看到上周的文章Solido的机器学习,我们做了一些基本的背景更高级的机器学习的概念,但这将需要这样的平台算法遇到更多细节。

神经网络审查

让我们开始的概念感知器。似乎有一些迂腐的分歧是否这是网络中的一个节点或只是一个很简单的网络(一个节点),但这是一个基本单位但是你觉得。它有一个输入和一个输出。输入每个乘以一些体重,之后一个激活函数应用。在本例中,它将是一个线性函数。

(通过垫w的英语维基百科CC冲锋队3.0)

这可用于基本的分类。在一个学习背景下,权重调整的系统学习;这相当于一个模型被调整,直到它给出了正确的答案正确答案是已知的任何情况。,你那么有信心,它也会产生正确的答案对于任何情况你不知道正确的答案。

基于线性的,这相当于在一种或另一种情况下,“分隔”分类是一条直线。

一个基本的网络输入和输出节点——两层。一个多层感知器额外的层;输入和输出之间的层被称为隐藏层。这使得它成为了一个深层神经网络。在这种情况下,一些可能是非线性激活函数。一个常见的一种非线性函数乙状结肠,所谓的因为他们看起来有点像一个美国这里的想法是,分类,它作为一种阈值函数,在一个狭窄的模棱两可的地区和其他明显的出入,近似一个阶跃函数。

(例乙状结肠:误差函数。资料来源:维基百科)

多层感知器是一个全连通网络。这意味着每一层是完全连接,这意味着它有每个节点之前美联储的所有输入层。

一个前馈网络是不言自明的:所有的信号处理通过网络从左到右(使用西方惯例)。一个递归神经网络(RNN——不要与混淆递归神经网络),然而,有反馈,所以它不是前馈。从数据流的角度来看,前馈网络是描述的有向无环图(无进取心的人);RNNs循环。

自然语言、语音和手写识别和其他时变现象往往从RNNs中获益。我还没挖足以知道这是为什么;我的头顶,我猜想的反馈提供了存储状态。对于视觉处理,然而,我们转向生物学点我们在正确的方向上。

我C U

事实证明你有多个神经元在你眼前,而且每一个处理一个特定的瓷砖你的视野。瓷砖有所重叠;你得到整个领域。每个瓷砖的方式是由神经元处理是非常类似于卷积。

是的,我知道。卷积。那就是奇怪的数学函数,至少对某些人来说,提出了一些奇怪的积分没有理由。我们只是记住了它喜欢孝顺的无人机(和一些令人反胃的最后,正确与否,而忘记了它),向前迈进。就在s域乘法。耶。

简单地,我认为它是一个复杂的几个领域的向量积。你滑一个函数在另一个函数,乘法和加法第三个函数。维基百科有一些有用的图形和动画。

这就是的概念卷积神经网络,或美国有线电视新闻网的来源。美国有线电视新闻网有不同类型的层;他们并不是所有的隆起和大多没有完全连接。卷积层做什么听起来,与每个输入节点层瓷砖从原始图像。层中的所有节点具有相同的权重的输入。

然后经常有汇聚层,卷积结果down-sampled减少字段长度。做的方法之一是通过瓷砖卷积结果为特定的原始瓷砖(是的,瓷砖瓷砖)和挑选瓷砖中的最大值;这个值代表整个原始瓷砖。如果新的瓷砖(在最初的瓷砖)2×2,你现在down-sampled 4倍。

这可能是紧随其后的是更多的卷积和汇聚层。末(的数据量大大减少),通常会有完全连接层驾驶最终结果。下面的图显示了一个广义的观点,进行二次抽样的池层。

(通过Aphex34——自己的工作、CC冲锋队4.0)

所以你怎么做呢?

好了,这就是一个超级简短的底漆,至少根据我的理解。如果你试着用这样的东西,你怎么做?有几层的答案。(当然)。在最高的层次上,你描述你想要实现的学习行为。有一些工具抽象的设计,尤其是咖啡,深从加州大学伯克利分校学习框架,和数据流TensorFlow去年开始由谷歌和开源工具。这是你想玩的地方,因为你可以在更高的级别上关注你的网络的性质和你想解决的问题。

你上面描述的,当然,必须实现一些处理平台上,也有很多选择。您可以使用cpu、gpu dsp、和任何组合。但都是相当计算密集型——特别是回旋的部分,所以人选择加速,专用芯片。在这种配置,你有一个CPU作为主机处理器;它手卷积职责加速器。

最大的挑战是,随着加工之间来回传递处理器和加速器,数据移动。投入太多精力的运动数据。

(图片由节奏)

Movidius是一个公司的例子放在一起深度学习芯片;他们是高传单和被英特尔收购。他们有一个专门的“剃”矢量引擎以及两个cpu和稀疏数据的专用硬件结构;这是一个混合的软件/专用硬件解决方案。他们声称teraFLOP性能与1 W的功率损耗。

带给我们什么节奏已经宣布,通过Tensilica手臂。与Movidius不同,他们不出售一个实际的芯片;他们出售IP: C5 DSP Tensilica愿景。他们采取了卷积加速度的概念更进一步的处理器可以处理所有层的CNN,不仅仅是卷积层。作为结果,你可以做任何事的目的是一个DSP,而不是使用两块处理。因此,数据没有之间移动一个主机和一个加速器。

他们分解的挑战与选择的实现如下:

cpu,而熟悉和容易使用,通过更新与能否经得住时间的考验(只要你留在内存占用),使用过多的权力,实现少于200 GFLOPs性能。
gpu在力量方面做的更好,但是不是很好;他们达到约200 GFLOPs。
他们看到加速器更灵活(由于各种固定的硬件,这让他们暂停在这样一个快速发展的领域)和难以使用,因为你需要软件部分和硬件部分分开。他们对权力和可以实现大于1麦蒂,但专用硬件限制能否经得住时间的考验的选择。数据移动也妨碍。从性能的角度来看,我们比较TFLOPs麦蒂,这节奏说你做不到,因为它依赖于MAC精度。但性能表现,如果你想比较两个解决方案,该做什么?我个人的本能,除了精度,是失败——一个浮点操作性能低于一个MAC -涉及乘法和加法。
更简单的打交道DSP(比如Tensilica视力P6)得到了易于设计、力量,和能否经得住时间的考验,但管理只有200 - 250通用汽车金融服务公司(gmac)。

C5块图看起来像下面的。(是的,有一个额外的内存中加载块路径;我确认它是正确的,但是我没有解释什么,与加载/存储块[编者注:见下面的更新])。

(图片由节奏)

他们使用两个记忆——一个用于读;写一个。当完成一层,他们扭转方向,次涨跌不必移动数据。

处理相当广泛;这是一个4路VLIW 128 - SIMD处理机。让我们打开。当然,SIMD意味着单指令/多个数据。在这种情况下,你有128的值都将运行在相同的指令,并行执行。

但是,SIMD并行性给你数据,VLIW指令级并行性。它代表very-long-instruction-word,这么长时间,因为它包含了一些数量,在这种情况下,4 -指令/数据对。每个指令可以(可能是)不同。所以在这里你可以做四个不同的事情。值得注意的,在这种情况下,数据不一定只是一个值或标量;它可以是一个128位向量。得到四个SIMD指令并行,这意味着你做1024次操作在同一时间。(因此,1024 mac电脑,大概)。

他们也可以在一个多处理器的配置规模与共享内存,如下所示。是的,他们看起来像独立的记忆,但是他们共享的一种方式。也许它更像是一个内存分布在核心。

(图片由节奏)

总之,他们用下图来说明他们的观点的优势C5与加速器。注意,这个处理器可以用作补充一个成像DSP,但是,如果是这样,成像DSP不共享任何神经网络的负担;这是完全在C5 DSP处理。

(图片由节奏)

看的最后一件事就是,设计流程是什么样子的?如前所述,你真的想让你的工作在高层框架(例如,咖啡/ TensorFlow)。似乎是由节奏的开发工具包。

(图片由节奏)

这是一个节奏的快速破败的神经网络IP。作为额外的角上的主题,提出了一种专用CNN-RNN处理器在今年早些时候globalfoundries在韩国韩科院。他们指出卷积层,复发性层,和完全连接层可能在网络共存,但是他们有非常不同的加工需求。卷积需要大量的计算在一些权重,而完全连接层和复发性层往往需要简单计算大量的重量。迄今为止,只有卷积已经加速。

所以他们组建一个芯片,结合设施所有三种类型的层,这样一般深神经网络(款)可以在芯片上实现。是的,有一些固定的硬件,虽然部分地区使用查找表(附近地区)的可编程性和适应性。深入分析他们的解决方案可能需要一个完整的独立的文章,所以我把它在这个高度,提到你的程序(下图)剩余的细节。

更新:

在上面的原创作品中,我注意到我不确定函数的载荷和加载/存储块的架构,因为我没有得到解释。从那以后,我已经收到了更多的信息,同时也澄清,我误解了次涨跌是如何工作的。这是关于这些主题的更多信息。

次涨跌,我原本以为阅读从一个记忆和写作,然后扭转。我曾设想作为一层走一个方向,然后扭转下一层,所有没有移动数据。

原来这不是交易。次涨跌之间的工作在一个内存(做加载和存储),dma新的数据到其他内存。说,这可以重叠的处理图片的一个瓷砖领域同时加载下一个瓷砖。只要缓冲区大小正常,DMA永远不应该成为瓶颈。

工作记忆,你有两个银行。内存总线是1024位,但这两家银行之间的分裂,这就使它们在某种程度上相互独立的。从本质上讲,他们两个端口到两个不同地区的记忆。你可以同时负载从一个商店到另一个,或者你可以做两个独立的并发负载,分别来自银行。所以加载/存储块代表行动时同时加载和存储;加载块代表做两个同时加载。

我想想,我认为你仍然可以完成我最初想象的次涨跌,除了它的银行之间,而不是记忆。您可以指定一个“老”银行数据被加载和工作,与其他银行代表结果。之后,你可以颠倒顺序,与以前的结果正在为下一步“旧”数据。

更多信息:

节奏Tensilica愿景需求方

DNPU: 8.1上衣/ W通用深层神经网络的可重构处理器CNN-RNN: globalfoundries 2017程序,14.2会话。PDF格式的幻灯片在这里。

Movidius