跳至内容
在即将于今年12月8-10日在贵阳举办的CNCC2022期间,122个涵盖计算+行业、人工智能、云计算、教育、安全等30个热门专业领域的技术论坛上,近700位专家将着力探讨计算技术与未来宏观发展趋势,其中不乏在各领域深具影响力的重磅学者专家并担纲论坛主席。
本专题力邀CNCC2022技术论坛主席亲自撰稿,分享独家观点,带你提前走进CNCC,领略其独特魅力。
文继荣 CCF常务理事,中国人民大学教授、信息学院院长&高瓴人工智能学院执行院长
宋睿华 中国人民大学高瓴人工智能学院长聘副教授
视频加载失败,请刷新页面再试
刷新
多模态与认知相遇,探索更像孩子一样的学习方式——文继荣、宋睿华
最近时常会被朋友圈里AI生成的作品惊艳到,比如,图1是用“从荒芜到生命”作为提示词,在midjourney.com上生成的多幅作品中的两幅。伴随着AI生成作品的破圈应用,以及关于多模态的综述、趋势和技术详解等前沿成果接连涌现,让人不禁感慨:藏不住了,多模态实火。
图1. 用midjourney.com生成的两幅《从荒芜到生命》
从早至上个世纪启发自读唇语的语音识别/情感识别,到应用于太空的多光谱/高光谱相机对地观测,再到手机人脸识别用到的红外和RGB相机,可以说多模态研究历史悠久、涵盖广泛。它的研究领域及应用和我们的生活息息相关。而我们就生活在这样一个多模态世界中。人脑在感知和理解世界时不仅仅局限于单一模态,通过引入多样化、更为全面的模态信息,我们期望获得更强的学习能力与更好的学习效果。一双眼睛提供了视觉信息,耳朵提供了声音信息,鼻子提供了嗅觉,舌头提供了味觉。当这几种感官聚焦在一起时,我们方才了解:“哦,面前这道菜‘色香味’俱全!”这种与生俱来的多感官认知能力让无数认知学家为之向往,也启发着人工智能领域的研究者设计并打造多模态信息处理的相关高效算法。
认知科学领域上世纪90年代开始的具身革命,为多模态研究提供了认知基础。具身(Embodied,也译为“体验”)模拟假说认为思考以及使用语言的能力,并非只和头脑相关,而是我们的肉身与头脑合作的成果。这里的肉身就包括声音、视觉、味道、气味、触感和运动等模态。不断有巧妙设计的认知实验,以及利用精密的眼动仪器和fMRI的实验结果,提供证据支持这一假说。正如,本杰明·博根教授在他的著作《我们赖以生存的意义》中的举例(如图2),当看到“北极熊爱吃海豹肉,而且爱吃新鲜的”这个句子,一刹那,我们的脑袋里很可能会浮现出北极熊和海豹的样子;看到“它爱吃新鲜的”,我们可能会有一点要流口水的感觉;当我们看到文字描写北极熊是怎么捉海豹的,讲到了它“一跃而起,伸出爪子,露出獠牙”,则很可能有一种想张嘴伸出手的冲动。这些都与我们对文字所描述的景象进行了多模态的模拟相关。
图2. 来自《我们赖以生存的意义》的例子
如果人工智能也可以对文字进行跨模态的模拟,比如检索或生成“北极熊几乎可以完美地将自己隐身于周遭的冰天雪地”对应的画面,尽管原文中没有提到过颜色相关的词,我们也可能从对应的画面中推理出北极熊是白色,而周遭的冰天雪地也是白色。这样一来,视觉模拟为人工智能补上了文字所省略的常识,它们也就有可能像我们一样理解这句话的含义。
多模态的大火也和Transformer为代表的通用骨干网络在文本、语音和视觉领域的诸多任务上取得广泛成功不无关系。统一的模型架构让多模态信息的融合变得简单而有效,训练起来也并不麻烦。当然,互联网上取之不尽的图片文本数据,以及近年来持续增长的短视频数据,都给基于自监督的多模态预训练模型提供了充足的数据。例如,在北京智源研究院的支持下,中国人民大学文继荣教授牵头的文澜项目,继去年发布6.5亿图文数据上训练得到的文澜2.0模型、展现出图片跨模态搜索歌词或者古诗的惊人能力之后,今年6月又发布了1千万视频文本数据上训练得到的文澜3.0模型,并基于此实现了多种有趣的多模态应用。例如,让机器狗对环境作出自然反应,以及让AI可以根据任意的视觉场景发起多模态对话(见视频)。