系统变得越来越人性化。我们逐渐赋予他们一些能力去做我们所做的事情,这样我们就不必再做了。其中一部分包括给他们某种形式的五种感官。(如果他们有第六感,我们就有麻烦了。)
可以说,这些感官中最复杂的是视觉能力。实际上,看不是什么大事:加一个摄像头,你就到了。要从你看到的东西中找到意义是非常困难的。在幽灵和间谍的世界里,视觉技术的研究可能已经销声匿迹多年了(要么是这样,要么是好莱坞一直在对我们撒谎,这是不可能的)。所需的计算量使它在强大的机器上运行,即使它从阴影中走出来,进入人们的视野。
但是现在我们希望我们的小设备能够像它们有自己的视觉皮层一样工作(不要与ARM皮质混淆,尽管其中一个可能涉及到另一个的实现)。这不仅意味着计算,而且意味着性能和低功耗的计算。占地面积小。价格很低。没有问题。
嵌入式视觉的主题是最近成立的嵌入式视觉联盟的明确章程,该组织上个月在波士顿与Design East联合举行了第一次公开会议。这个领域的各种参与者,联盟的所有成员,展示了最新技术的不同方面——讨论在很大程度上提出了挑战,而不是现成的解决方案。
许多技术领域都有自己的开创性时刻或准宗教试金石。对于半导体来说,这是摩尔定律。对于触摸和其他传感器技术(仅举几例),它是iPhone。嵌入式视觉也有这样的启示时刻:微软的Kinect。
虽然在Kinect之前已经有许多复杂的互动游戏系统,但它是第一个仅使用视觉(没有加速度计或其他运动探测器)大规模实现这一目标的系统。它不仅将嵌入式视觉带入了主流,而且成本也很合理。而且,一旦系统被黑客入侵,它就变成了一个车库级的实验平台。
所以Kinect是视觉的iPhone(没有那么令人垂涎和晕头转向)。而且,就像芯片展示必须参考摩尔定律,任何与手机相关的东西都必须参考iPhone一样,Kinect是嵌入式视觉联盟的出发点。
视觉技术似乎可以在特定的抽象层次上被一分为二。在这一点以下是相对容易理解的算法,如人脸识别或边缘检测。这些算法通常是计算密集型的——或者更糟,是内存带宽密集型的。并不是说这里没有工作要做了;人们可能会不断提出新的想法,但大部分工作是在各种硬件架构上优化这些算法的性能。
超过这个水平,事情就变得模糊多了。这是高级解释的领域。你已经确定了一个坐标系中的很多条边:那又怎样?它们是什么意思?这就是世界变得不那么严格的算法和更多的启发式。很多原创研究就是在这里进行的。这两条相交的边:它们属于同一个结构吗?一个在另一个前面吗?是其中一个还是两个都在动?环境光是否会产生阴影,从而被误解为物体本身?
虽然有人可能会争论算法和启发式之间的分离点在哪里,但有一个事实上的点似乎已经找到了一个方便的地方:OpenCV库。这是一个高级API和例程库,用于处理具有合理可靠实现的算法部分。然后,它们成为执行高级工作的更模糊例程的构建块。
虽然OpenCV形成了一个方便的集合点,尽管它抽象了大量计算密集型代码,但它并不是万能药。这些库是针对桌面(或更大的)机器开发的。例如,它需要一个c++编译器——这在创建深度嵌入式系统时不太可能看到。它是在英特尔架构上开发的;将其适应更小或不同的嵌入式体系结构需要进行大量优化。许多例程依赖于浮点数学,这是许多嵌入式系统所缺少的功能。
其中一家参与的公司Videantis已经将OpenCV作为一个过渡级别更进一步:他们已经构建了在OpenCV API级别上运行的硬件加速IP。这允许他们优化许多OpenCV例程的实现,同时让设计人员使用OpenCV编写算法代码,从某种意义上说,不需要移植。
当那些穿白大褂的人在一个房间里研究智能算法时,那些穿着油腻工作服的人在隔壁房间里试图找出运行这些东西的最佳硬件。许多演示都指出需要一个异构结构来实现这一点。这意味着工作可以在一个标准CPU、一个高度并行的GPU、一个高效的DSP和一个FPGA(或者它们的部分组合)之间分配。
识别这样一个体系结构的需要反映在异构系统体系结构(HSA)计划中。事实上,在另一个单独的讨论中,HSA的创始公司之一Imagination Technologies表示,纯多核引擎已经走到了尽头——它无法超越你现在看到的四核引擎。这并不一定符合许多核心努力正在进行中,但很难说多次复制的单一核心是所有问题的最佳答案。如果考虑到功耗(这对嵌入式和移动应用程序至关重要),那么您几乎必须根据问题的效率来定制引擎。
权力并不是唯一的限制。我们看到视觉子系统被打包成一面1英寸的立方体。还有一个价格问题。Kinect以大约80美元的物料清单(BOM)向市场发起挑战。这是一款大容量、面向消费者的设备。这是第一次。这意味着成本只有一条路可走:下降。如今,系统价格已接近50美元,但下一代系统将需要将BOM目标定在15-20美元,以实现极高的产量。
所有这些都预示着我们周围将会有许多机器眼睛。监视我们的一举一动。等等,我开始把自己吓坏了——我敢肯定它们只会被用来做好事。如果世界上的q和詹姆斯·邦德们愿意的话,他们可能已经部署了其中的大部分。这将把全视能力从政府的手中转移到企业和消费者的主流。好吧,现在我真的吓坏了。(深呼吸……oooooooooommmmmm——等等,我猜,根据法律,这将是在硅谷ooooooohhhhhhhhmmmmm)像往常一样,承诺和危险的标志。有足够的素材供进一步讨论。
更多信息:
你们有嵌入式视觉的计划吗?你认为还有哪些不太明显的挑战?