EEJournal

专题文章
现在就订阅

智能事物和健谈的人的新一代语音接口

我刚刚和Mark Lippett聊天,他是英国芯片公司XMOS的CEO。Mark告诉我,他们最近宣布推出了XVF3610和XVF3615语音处理器。这些小美人将为下一代高性能双麦克风语音接口提供动力,用于无线扬声器、电视、机顶盒、智能家电、网关产品等。我们稍后将更详细地讨论这些问题,但首先……

让我们从提醒自己开始XMOS是一家无晶圆厂半导体公司,以xCORE多核微控制器技术而闻名。这些设备包含多个处理器“瓷砖”,通过高速开关连接。每个处理器块都是一个传统的RISC处理器,最多可以同时执行8个任务。运行在同一个tile上的任务可以通过共享内存相互通信。任务还可以通过通道与运行在同一块或其他块上的其他任务通信。

正如我在离语音控制又近了一步:“xCORE架构在硬件上提供了许多通常在实时操作系统(RTOS)中看到的元素。这包括任务调度程序、计时器、I/O操作和通道通信。通过消除时间不确定性的来源(中断、缓存、总线和其他共享资源),xCORE设备可以为许多应用程序提供确定性和可预测的性能。任务通常可以在纳秒内响应外部I/O或计时器等事件。这使得编程xCORE设备可以执行硬实时任务,否则需要专用的硬件。”

虽然与我们在这里谈论的内容无关,但我忍不住要分享两个由xmos驱动的艺术装置的视频,这些视频是由伦敦艺术集体和合作工作室的聪明的家伙和女孩们创作的随机的国际

第一个视频这是兰登的照片群研究创造。这个叫做蜂群研究(VII).正如YouTube上所说:“Swarm Light邀请我们体验一种视觉体验,灵感来自对自然和迷人现象的研究;成千上万只鸟的迁徙模式。”与此同时,兰登自己网站上的作品集条目写道:“群研究模拟自然界中看到的群体行为模式,将它们体现在光中。受到飞行中欧椋鸟惊人的低语的启发,无数单独的灯光集体行动,创造了蜂群。蜂群研究(VII)是一个中东交通枢纽的特定场地工作。蜂群生活在一个整体立方体中,自主行动,在其繁忙的位置创造出一种空灵和冥想的存在。”

相比之下,第二个视频(不幸的是,这里不能嵌入,但幸运的是,链接起作用了)实现了一些我认为可能是我们许多人共同的梦想——能够在倾盆大雨中行走而不被淋湿。你读过里面的书吗地海三部曲——作者:美国作家乌苏拉·k·勒奎恩(在18年的间断后,随着更多的书的增加,这些书现在被统称为地海循环) ?这些故事以虚构的地海群岛为背景,在那里魔法是生活的一部分(尽管只有少数人有能力练习它),故事围绕着一个名叫Ged的年轻法师展开。这个想法是,词语具有力量,如果你知道词语与事物的创造有关,那么你就可以控制它们。我只想说,格德当然可以在暴雨中散步,而不会有一丝潮湿。

这一切的意义在于,在这里第二个视频,我们看到兰登的雨的房间2012年首次在伦敦巴比肯艺术中心展出;随后是纽约现代艺术博物馆(2013);上海余德耀博物馆(2015),洛杉矶当代艺术博物馆(2015 - 2017),最后在阿拉伯联合酋长国沙迦展出。雨的房间允许参观者在倾盆大雨中行走而不被淋湿。当参观者在黑暗的空间中穿行时,运动传感器探测到他们的动作,成为“艺术、技术和自然交汇的表演者”。

我不知道你是怎么想的,但我很想能走一走雨的房间神器来感受一下如果能使用这种魔法会是什么感觉。然而,回到手头的主题,这两个展品都展示了基于xCORE架构的芯片的计算能力和闪电般的响应能力。

我担心我可能会有误入歧途的危险,所以让我们控制一下自己。下面是XMOS历史的简要总结。一家名为Inmos的英国半导体公司成立于1978年,开发了一种用于并行处理的创新微处理器架构,称为Transputer。1989年4月,Inmos被卖给了SGS-Thomson(现意法半导体)。我在这里提到这一点的原因是,XMOS成立于2005年,其中的名称XMOS是对Inmos的松散引用,XMOS技术中的一些概念(例如通道和线程)是Transputer遗留的一部分。

2008年,XMOS推出了首款xCORE芯片,广泛应用于嵌入式应用。2010年,XMOS将其足迹扩展到多通道音频市场。2014年,XMOS的工作人员与客户合作,将XMOS阵列麦克风调整为语音应用程序。2017年,XMOS凭借带线性麦克风阵列的远场语音接口获得了行业首个亚马逊Alexa语音服务资格。

到目前为止,我们已经习惯了麦克风阵列,比如亚马逊Echo的七个麦克风(六个在一个圆圈里,一个在中间)。问题是这种形式的数组并不便宜。它适用于智能音箱等专业高端设备,但对于电视、机顶盒、智能家电和网关产品等注重成本的应用来说太昂贵了。

当你开始思考这个问题时,我们人类只用两只耳朵来识别声音的来源和所说的内容。当然,这是因为我们的生物大脑提供了大量的处理能力(看看狗!)这就解释了为什么在2017年,XMOS收购了SETEM,这是一家专门从事源分离音频算法的公司。两年后,也就是2019年,XMOS的伙计们颠覆了市场,他们针对智能设备市场推出了一款成本不到一美元的高性能双麦克风解决方案。最近,在2020年,XMOS的伙计们介绍了他们最新、最棒的xCORE。ai架构,为AIoT提供了快速、灵活、经济的平台*,在单个设备中提供高性能ai、DSP、IO和控制功能(*参见物联网、工业物联网、物联网和AIoT的常见问题是什么?).

xCORE设备提供了理想的解决方案,以满足当今碎片化市场对计算机的极端要求(图片来源:XMOS)

现在让我们从一个稍微不同的角度来看问题。当XMOS进入USB音频市场时,他们很快就被认为是提供全功能参考设计的专家。这些设计是用户可以采用的,“用塑料包裹起来”,并将其作为产品的一部分交付。或者,用户可以解构这些参考设计,并修改它们,添加自己的“秘密松鼠酱”,以区分自己。

后来,当XMOS进入“语音空间”(矛盾的是,没有人能听到你的尖叫)时,他们用第二代xCORE 200设备做到了。为了满足远场语音检测和识别的需求,xCORE 200几乎已经满了,没有任何空间留给客户修改、优化和差异化,因此XMOS的工作人员选择在VocalFusion (VF)的旗帜下创建看起来像特定应用标准产品(assp)的语音解决方案。这些设备(如XVF3510)都是现成的语音处理器,用户只需将其放置在板上,然后通过应用程序编程接口(API)根据需要对其进行配置。

如前所述,最新和最大的xCORE。人工智能架构于2020年推出,这些设备有更多的计算能力和更多的资源。反过来,这意味着XMOS的人员可以再次转向—使用xCOR。人工智能芯片通过可配置的语音平台(如他们新推出的)来增强他们的固定语音解决方案XVF3610和XVF3615语音处理器

这些设计标志着亚马逊Alexa系统中已经使用的XVF3510语音处理器的发展,它们提供了强大的音频回波消除(AEC)和干扰消除算法,以抑制主要来源的噪声,并实现跨房间拒入。XVF3610和XVF3615还包括自动音频参考延迟校准(这是支持语音的电视系统的关键功能),扩展了可以实现语音接口的设备和环境的范围。

此外,XVF3615还为单通道Alexa系统添加了嵌入式亚马逊唤醒字,允许制造商从其主机处理器/SoC系统中卸载唤醒字处理。(XVF3610现已发售,XVF3615将于2022年1月发售。)

也有两个开发工具包帮助我们评估XVF3610,并为我们支持语音的产品原型——一个用于USB插件附件实现(带有USB控制接口),另一个用于内置语音实现(带有I2C控制接口)。

XK-VOICE-L71用于XVF3610的开发工具包(图片来源:XMOS)。

XVF3615的尾流字检测能力尤其令人感兴趣。如果主机处理器/SoC必须自己执行唤醒词检测,那么它就会日复一日地坐在那里,在消耗4瓦功率的同时监听唤醒词。相比之下,XVF3615的尾流字检测能力仅消耗几百毫瓦。当XVF3615检测到唤醒字时,它唤醒主机处理器/SoC。

XVF3615的尾流字检测具有足够高的质量,不需要主机处理器/SoC重新确认。这本身就很棒,我可以很容易地看到基于XVF3615和主机处理器/SoC组合的解决方案,但等等,还有更多……

所有这些都让我想起了我在EEJournal上写的两篇专栏文章:模拟人工神经网络(aann)的美丽新世界而且Aspinity的模拟人工神经网络(AANNs).系统等待唤醒词的问题是,世界充满了周围的声音——狗叫、猫呕吐(我是根据经验说的)、鸟叫、系统在房子里“轰鸣”、汽车和卡车在房子外面轰鸣、风、雷、雨……等等。

即使我们将尾流字检测从主机处理器/SoC(消耗4瓦)卸载到XVF3615,我们仍然会消耗几百毫瓦。这可能看起来并不多,但当我们最终拥有数十亿个语音控制设备时,我们谈论的是使用多个发电站的输出来确定是否有人在说话。

更优雅的解决方案是将XVF3615也置于休眠状态,Aspinity的永远在线可重构模拟模块处理器(RAMP)使用其模拟AI/ML神经网络侦听每个声音,以确定该声音是否是人类语音,而这一切都只消耗25微安(µA)的功率。RAMP一旦检测到人类语音,就会唤醒更高功率的唤醒字处理器——在本例中是XVF3615。

现在,这是一个聪明的部分(好吧,一个聪明的部分)。RAMP芯片不断地记录和存储(以压缩形式)预滚。当它检测到人类语音并唤醒唤醒文字处理器时,它会解压预卷并将实时音频缝合在背面,将其送入唤醒文字处理器。这意味着,只有当有人说话时,XVF3615才会醒来,并开始监听唤醒词。如果这个人没有说唤醒词就停止说话,XVF3615将重新进入睡眠状态。但是,如果XVF3615检测到唤醒字,它将唤醒主机处理器/SoC。辉煌!

哇!恐怕我有点激动得忘乎所以了,但是,公平地说,我认为这是相当令人兴奋的。你呢?你怎么看这一切?

留下回复

有特色的博客
2022年12月28日
我不得不说,其中许多机械运动对我来说都是全新的,从第一个开始,我现在知道它是施密特耦合....
2022年12月25日
https://youtu.be/V2368Zo4Tb4直接链接,如果它说视频被屏蔽,在格罗夫兰CA(无人机飞行员凯里)周一:IEDM主题演讲:安凯莱赫对未来技术周二:RISC-V峰会第二天:Krste, Android周三:12月更新:陈明胡,闰秒,对…
2022年12月20日
作者:James Paris和Armen Asatryan在实现过程中自动进行简短检查,让设计团队快速找到并修复这些错误... ...
2022年12月20日
我们在Synopsys上回顾了2022年,包括基于云的芯片设计工具、机器学习和人工智能驱动的EDA解决方案、多模系统和安全接口IP。回顾一年:回顾2022年的关键技术进步和冒险,这篇文章首次出现在来自硅…

有特色的视频

演示:PCIe Gen5 x16运行在VectorPath加速卡上

Achronix

Achronix工程师展示了如何使用Speedster7t FPGA将VectorPath加速卡连接到PCIe Gen5 x16主机,并通过全芯片二维片上网络(NoC)读取/写入GDDR6内存。NoC将数据从任何高速接口以2GHz的速度路由到FPGA内部的核心结构,而不消耗任何FPGA逻辑资源。

点击这里观看更多来自Achronix的视频

特色粉笔谈话亚博里的电子竞技

电池管理系统简介

英飞凌

有效的电动汽车电池管理是当今工程师面临的一个关键设计元素。在本集Chalk Talk中,Amel亚博里的电子竞技ia Dalton与来自英飞凌的Marco Castellanos讨论了电动汽车电池管理的关键功能,电池平衡,电压测量和温度测量在电池管理ic中的作用,以及使用蓝牙低功耗的无线电池管理如何帮助您解决下一个设计中的各种电池管理挑战。

点击这里了解更多关于英飞凌电池管理ic的信息

Baidu