“深度学习革命是当今电子行业最有趣的事情,”克里斯·罗文(Chris Rowen)在大会的主题演讲中表示电子设计过程研讨会(EDPS)于上月在SEMI的米尔皮塔斯总部举行。SEMI是电子供应链行业协会。罗文继续说道:“这种炒作很难被低估。在谷歌上搜索“深度学习”,你会得到超过30亿次的搜索结果。(好吧,我在“深度学习”和“人工智能”上分别获得了2000万和4.51亿美元,但这仍然是很多。)“全球有1.2万家初创公司在Crunchbase上市,”他补充道。(我得到了1497分,同样是“深度学习”,但仍然……)据Rowen称,在过去的12个月里,arxiv.org上发表了16500篇关于深度学习和人工智能的论文。
换句话说,人工智能很热门(如果你过去几年一直住在洞穴或地下防空洞里的话)。
Rowen是BabbleLabs(前身为BabbLabs)的首席执行官,但缺少的“e”让人们感到困惑,因为他们不会发音。BabbleLabs是一家深度学习初创公司。它致力于将深度学习和dnn(深度神经网络)应用于语音处理。
Rowen解释说,深度学习是一种“学习的数学层饼模型”。(我怀疑他指的是DNN模型中隐藏的各种层。)在经过一段时间的训练后,你将大量的输入输入到一个隐藏的系统中,以获得理想的输出。这个模型非常通用,几乎适用于任何类型的数据,但是您必须有一种方法来收集所有所需的训练数据。
目前,dnn最大的应用是视觉系统。这些系统的训练非常复杂,运行这些系统需要消耗大量的计算周期。基于dna的视觉系统狼吞虎咽地进行TOPS(每秒1次运算),就像孩子们在万圣节期间吃玉米糖一样。
罗文说,最根本的问题是“智慧都去哪儿了?”换句话说,对视觉系统来说,执行所有这些tera-ops的最佳地点是哪里?离相机近的位置是最好的吗?这将为您提供低延迟,并且不会使网络流量过载,但会降低从多个摄像头聚合数据的能力。
执行所有tera-ops的最佳位置是否在某种聚合位置?在云的边缘?在云端?
没有单一的答案。(这太简单了,不是吗?)
有许多关键的权衡需要考虑:
如果希望最大限度地提高系统响应能力,可以将处理设置为本地处理。这是显而易见的。你不希望自动驾驶汽车的避碰DNN位于云中,因为网络掉线可能导致多车连环相撞;你要在车里处理。
如果您需要对来自多个摄像头的数据进行全局分析,例如在监控系统中,那么您希望在云中进行处理。
如果你关心隐私,你不希望原始视频穿越网络。您希望处理是本地的。
如果你想要最小化成本,你需要约束DNN并保持处理在本地。云计算非常灵活,但它是一个现收现付的系统,运营成本单调地增加。
在这一点上,Rowen继续BabbleLabs的工作。“声音就是视觉,”他宣称。“这是最人性化的界面,因为有50亿用户(包括收听广播的人)。
但人工智能增强的语音处理和识别还有另一个方面,确实让它很像视频。“语音识别本质上是在频谱图上进行的图像识别,”Rowen说。
现在有一个有趣的想法。
看一看频率随时间变化的频谱图。这是一张2D图像,就像任何图像一样,你可以训练DNN来识别光谱图中隐藏的特征。罗文展示了BabbleLabs语音增强器,它使用人工智能增强技术,从乌拉圭蒙得维的亚一条繁忙街道旁的行人说话中去除道路和风的噪音。它的效果出奇的好。
你自己去看(看完后再匆忙做出判断):
辅助轮脱落了。