人工智能时代到来:机器自我学习技术与实现

麻省理工学院的计算机科学家们已经开发出了一种系统,该系统可以基于对图像的口头描述,来自动识别出图像中的对象。例如:指定一张图片和一段音频信息,系统就可以根据音频描述将图像中的相关区域高亮出来。

与当前常见的语音识别系统不同的地方在于,该系统模型不需要事先手动录入语音并对其进行训练,它可以直接学习语音单词,以及从图像中识别各种对象,并将学习的单词和识别的对象关联起来。

像Siri和Google Voice这类的语音识别系统,需要事先录入几千个小时的语音记录。并将这些语音记录和相关的单词进行映射匹配。这种方式暴露的问题在于,如果有新的单词进入系统,那么就需要重新训练。

而麻省理工大学的语音识别技术,则采用更自然的方式进行语音识别。

在最近的欧洲计算机视觉会议上,研究人员在一个金发和蓝眼睛的年轻女孩的图像上展示了他们的模型。

该图像中有一个金发蓝眼的穿着一件蓝色连衣裙的女孩,画面背景是一个带有红色屋顶的白色灯塔。该模型学会了将图像中的哪些像素与“女孩”,“金发”,“蓝眼睛”,“蓝色连衣裙”,“白灯屋”和“红色屋顶”相对应。当播放相关的音频单词时,模型就会按照音频描述的单词,突出显示图像中的相应的对象。

人工智能时代到来:机器自我学习技术与实现

这套系统还有一个很有前景的应用,就是有希望通过学习不同的语言,在不同的语言之间进行翻译。大概的实现思路是:让语言A和图像中的各对象相匹配,同时让语言B也和图像中的各对象相匹配,那么语言A就可以通过图像中的对象和语言B进行转换了。例如上图中,英文单词“girl”可以匹配到图像中的小女孩,中文中的单词“女孩”也可以和图像中的小女孩相匹配,这样,通过图像中的小女孩,就将英文girl和中文“女孩”对应上了,从而实现不同语言之间的翻译。

在道格拉斯-亚当斯的《银河系漫游指南》系列中,有一条叫“巴别鱼(Babel Fish)”的黄色小鱼。你只要把它塞入耳中,它就会自动为你翻译宇宙中的任何语言。有了这套机器学习系统,有望让科幻电影变为现实。


分享到:


相關文章: