先突破“内存墙”再来谈边缘AI吧

为快速成长的人工智能(artificial intelligence;AI)应用实现高效率的运算性能,必须解决“内存墙”(memory wall)的瓶颈,并推动新的架构解决方案;这是法国CEA Tech旗下技术研究机构Leti关注的重点领域。

Leti首席执行官Emmanuel Sabonnadiere在Leti年度创新会议上接受《EE Times》访问时表示,业界需要一种高度整合的整体途径,将AI从软件和云端移至边缘(edge)的嵌入式芯片。

Sabonnadiere说:“边缘确实需要一些创新,采用除了CMOS以外的不同架构,从结构上整合至系统,并从云端实现自主性——例如针对自动驾驶车,您需要云端尽可能地独立作业。”

他认为恩智浦(NXP)可望成为驱动在边缘实现更多运算的一项关键指标,因而针对高通(Qualcomm)并购恩智浦一案发表评论:“你觉得高通为什么要买下恩智浦?它是为了(边缘运算)的感测,而将数位置于感测之后。” Emmanuel Sabonnadiere

为了解决运算架构典范,Sabonnadiere期望能在Leti与斯坦福大学(Stanford University)电气工程和计算机科学系教授Subhasish Mitra带领的团队合作中取得一些突破。Mitra的研究已经进展一段时间了,专注于为庞大资料和密集互连应用探索内存内处理(processing-in-memory)的新架构。这项研究获得了美国国防部先进研究计划局(DARPA)、国家科学基金会(NSF)、Semiconductor Research、STARnet SONIC和斯坦福大学SystemX联盟的成员公司共同资助。

Sabonnadiere谈到芯片验证时说:“我们深信这是解决‘超越摩尔定律’(more-than-Moore)挑战的前进方向,并且已经要求Mitra教授打造这一研究展示了。”

在会议上,Mitra表示,庞大的资料超级风暴正袭卷而来,而其运算需求远超过处理能力,因此必须使用支持先进3D整合的运算纳米系统架构。

Mitra说:“数据必须经过处理才能创造决策,但目前还有太多我们无法处理的‘暗黑’数据。以Facebook为例,它必须采用256个Tesla P100 GPU,才能在1小时训练好ImageNet,这在以前大约需要几天的时间。”

提高运算性能的选择

那么目前提高运算性能的选择是什么?Mitra说,其一是要有一个更好的逻辑开关——但这方面的实验展示并不多。第二种是使用设计“技巧”,例如多核心、加速器或电源管理技巧。但他也补充说,可用的技巧并不多,而且当实施这些技巧而使设计变得更复杂,甚至会使验证变得更困难。另一个挑战则是Mitra所谓的“内存墙”。

Mitra说:“各种类型的庞大数据应用中,一个共同点就在于内存墙——系统需要更有力地存取内存。”

Mitra说,这就是专注于内存的运算概念所在,也是与Leti合作的关注重点——Sabonnadiere希望将在这方面取得突破。它使用先进3D整合使得运算更接近于数据。该芯片采用碳纳米管(CNT),因为Mitra表示它们是唯一可以超越CMOS和电阻式随机存取内存(RRAM)的技术。

Subhasish Mitra

RRAM和碳纳米管彼此垂直建构,形成具有逻辑层和内存层交错的密集3D计算机架构。在这些分层之间插入超密走线,应该就能以这种3D架构解决通讯的瓶颈。

Mitra将这个问题比喻为从旧金山(San Francisco)到加州伯克利(Berkeley)之间的交通挑战——由于只有三座桥梁可以穿越两个都市,因而造成了交通堵塞。然而,如果打造更多的桥梁——或者在他提出的3D架构情况下,就能够解决多纳米级交错层间过孔的瓶颈。

内存和软件2.0的突破

Leti首席科学家Barbara De Salvo表示,业界并未充份重视新兴内存技术,这些技术通常仍被视为利基技术。 Barbara De Salvo

De Salvo说:“在内存领域,业界仍持续采用传统技术。而像电阻式RAM、磁阻式RAM和相变内存等新兴技术仍未被充份利用。但它可望在实现新型架构方面带来巨大突破。”De Salvo并补充说,在未来几年,在软件中使用深度学习和AI也可能中在运算方面取得重大突破。

她说:“我指的是一个使用深度学习和机器学习来开发软件的新概念。软件是一个系统中最昂贵的部份之一。透过使用深度学习产生软件,以前需要花六个月的一些任务现在可以只需要几天的时间。”

编译:Susan Hong


分享到:


相關文章: