关于Sora，清华新闻学院沈阳教授有话说

存在于你头脑中的那些奇妙灵感，那些异想天开的画面，能够分秒之间被制作成一段真实且清晰的视频文件，播放在你眼前。曾经，这是魔法世界中的情景；而此时此刻，它正在成为触手可及的现实。

2024年2月15日（美国当地时间），OpenAI正式发布人工智能文生视频大模型Sora，这意味着人工智能技术向更高一阶段的迈进。

本期我们有幸邀请到清华大学新闻与传播学院教授沈阳，围绕AI技术面临的挑战和机遇，及其可能带来的人类认知挑战展开交流。“天人智一”的未来世界，已经来临了吗？

1、AIGC迈入“文生视频”新阶段

“Sora的推出代表AIGC进入「文生视频」新阶段，这是人类科技史上一个前所未有的进步。”

探小臻：近期Sora的出现引发了非常大范围的讨论，人工智能内容生成从“文生文”进入到了“文生视频”。以Sora为代表的文生视频大模型有哪些技术亮点值得我们关注呢？

沈阳：Sora的推出代表视频生成的大模型开始进入实用化阶段，可以说，这是人类科技史上一个前所未有的进步。如果说AIGC（人工智能内容生成）发展的第一个重要节点是2022年11月30号ChatGPT3.5的发布，那么Sora的发布就代表第二个重要的节点，即“文生视频”，这对于当前和今后的移动互联网发展都会带来巨大的影响。这样讲是因为，目前移动互联网里最主要的媒介形态就是短视频，短视频充斥着我们每个人的生活，这就意味着，AIGC将会直接介入到短视频这一整个媒介形态当中来。要知道，短视频市场在全球拥有超过一万亿美金的价值。

那从技术亮点上来说，首先，当然是进入到“文生视频”这个新阶段；其次，生成的视频在一分钟时长之内的一致性能够得到非常好的保障；第三，Sora能实现多机位、多角度的生成；第四，Sora已初步具备打通文本、图像和视频的能力。当然，目前的Sora只是1.0版本，我们对后续经过迭代的Sora和整个文生视频领域的期望值可以更高一些。

2、客观真实世界是否彻底消失？

“Sora将「遮蔽效应」进一步放大，但此类技术的发展无法触达对绝对真实空间100%模拟的极限。”

探小臻：近期关于Sora是“世界模拟器”的说法引发热议，有人惊呼“世界不存在了”，也有人认为未来的现实只会更多，关键在于区分不同种类的现实，甚至引发了“当前所处的世界就一定是真的现实吗”这样的疑问。您如何看待AI视频生成技术所带来的人对于世界、虚拟与真实的感受与认知的？

沈阳：未来，AI可以生成非常逼真地、能模拟真实世界的视频，这是肯定的，但也不足为奇。我们现在使用的短视频app比如抖音、快手，已经有大量的美颜工具，这在实际上已经在我们认知真实世界的过程中形成了一种遮蔽效应，而Sora只是将其进一步放大了。原来只是对每个人相貌的美颜，而现在通过Sora我们可以看到视频中异化甚至陌生的世界。因此，从这一点上来说，Sora可以被看作是“美颜工具”进一步的大规模的扩展。

事实上，当前此类技术的发展，整体上是以利用智能装备模拟人的六觉六识为目标而演进的，但这并不意味着“世界不存在了”。天地宇宙及其中万事万物仍然存在，智能装备可以对其进行模拟，但在我看来，无法触达对绝对真实空间100%模拟的这个极限。达到这一极限，意味着我们突破了人类对已知宇宙的一些限制，突破了其中事物间的普遍联系。从目前开看，在基本物质单位“夸克”，以及时间量子间的最小间隔“普朗克时间”的层面上进行模拟，几乎没有可能性触达极限。

因此，在未来，特别是随着元宇宙的进一步发展，AI可以从二维图像模拟逐渐走向对三维空间感和体验感的模拟，每个人都可以生活在自我的世界当中，这种现象会越来越普遍；但目前来看，这并不意味着客观真实世界的彻底消失。

3、谈AI技术的技术挑战与创新机遇

“对现有的移动互联网进行重构，将AI与制造业、服务业相结合是AI技术的创新机遇。”

探小臻：您认为接下来AI技术最大的技术挑战和创新机遇是什么？这些技术进步如何塑造我们的社会的未来？

沈阳：一般我们认为现在AI的水平相当于刚入学的博士生的水平，那么我认为最大的一个挑战就是下一步要让AI能够自发地达到超过爱因斯坦的智商的水平，这意味着AI超越了所有活着的人的最高智力水平。从这个角度来说，AI还有很长的路要走。

至于说AI技术的创新机遇，我认为有两点。

首先就是对现有的移动互联网进行重构：在内容方面主要是AI视频；在操作方面主要是AI助手、AI伴侣或者叫AI秘书。这两方面将会重塑我们现有的移动互联网形态，这其中蕴含着非常多产业机会。

第二个重大的机遇是把AI跟制造业相结合，让AIGC参与从产品设计到生产管理，再到个性化精准营销的整个链路的提升和改造。AI对于实体经济、传统制造业的改造将会带来巨大的效能提升。比如，当人形机器人彻底进入到工厂生产线，人类社会将会进入到一个物质相对丰富的新阶段；尤其是当人形机器人能够自己制造人形机器人的，人类的工业革命将会进入到下一个时代。

此外，人工智能还需进一步跟服务业相结合，比如网约车将会出现自动驾驶，快递小哥将在某种程度上被智能无人低速物流车或者无人机所取代。AI技术所带来的新一轮的改造将对人类生活的各个方面带来颠覆性的影响。

4、谈AI产品的逻辑硬伤和伦理挑战

“整体而言，AI幻觉率未来会进一步降低。AI产品传播过程中的筛选机制和出厂过程的价值观对齐会让AI输出的内容尽可能符合人类现有的道德观念。”

探小臻：AI技术的快速迭代不断挑战人类的认知，但必须承认的是，目前的AI产品中仍存在未能解决的逻辑硬伤。这是否揭示了AI与人类智能之间固有的差异，或者这些差异仅是技术发展过程中的暂时现象？

沈阳：目前AI的transformer模型还是一个概率模型，这就很容易出现AI幻觉。那么这就关联到一个经典的哲学也是物理学命题，上帝到底会不会掷骰子，也就是说上帝是不是一个概率论的信仰者。

从经典物理学角度来看，宏观世界是相对比较确定的，但是人类社会本身是一个复杂巨系统，事情的发生只能说有一定的概率而非绝对确定，微观物理学层面亦然。从这一点来看，人类社会本身的运行似乎跟AI是不谋而合的。

其实从去年到现在，AI的文本幻觉率已经大幅度减少，图像幻觉率在一些AI的能力边缘领域还是比较常见的。整体而言，AI幻觉率未来会进一步降低。

探小臻：我们如何在AI视频建构的那一个“世界”中培养一种文化，确保道德标准的优先考虑和落实？

沈阳：当然AI视频的生成是要遵循使用者的指令 (prompt)，但是当视频被发布到网络中，它就需要接受人类社会各方面伦理道德准则的核查。因此，传播过程本身存在的筛选机制就构成了第一个层面的保障。其次就是AI产品在出厂的过程中会做价值观对齐。

因此，程序员在做努力，我们广泛的传播者也在做努力，让AI输出的内容尽可能符合人类现有的道德观念。当然，AI一定会生成一些我们前所未见的内容，这些内容在某种程度上会对我们的道德标准和伦理规范产生细微的影响，这也是不可避免的。

5、“行业基准”不断刷新对我国技术更新的影响

“我们是乐于看到AI技术出现一种你追我赶的竞争局面的，而并不希望一家独大，永远垄断着使用权和话语权。”

探小臻：Claude 3 模型系列被认为在广泛的认知任务中树立了新的行业基准。您如何看待“行业基准”的不断刷新？这对于我国的的技术更新又将会产生怎样的影响？

沈阳：Claude 3 现在初步放出了一些评测结果，在部分而非全部分项中超过了GPT4.0，而且在实际使用中用户的体验与评测结果似乎也不完全是一样的，后面OpenAI也会很快发布GPT4.5。从用户的角度来看，我们是乐于看到AI技术出现一种你追我赶的竞争局面的，而并不希望一家独大，永远垄断着使用权和话语权。

那么对于我们国家来说，重要的是开源软件的示范。我们国家的软件的水平在很大程度上等同于开源软件。这意味着只要在世界范围内有了新的开源软件，或者是新的重要论文的发布，那么我们就可以快速把自身的水平提升到开源软件的最新水平，并在一些细节上进行微调，所以说开源软件很重要。我的一个建议是，我国的软件厂商在没有绝对优势占据世界领先地位的情况下，可以适当地把自己的AI产品进行开源，这对于全世界团队追赶OpenAI、追赶Claude 3都是有帮助的。

6、探索“文生视频”领域的可能性

“文生视频创作的作品将替代现有的抖音、快手等视频社交软件中的短视频内容。”

探小臻：您认为“文生视频”这一领域在未来一两年内的新的可能性？

沈阳：首先一定是大众开始广泛地使用这类产品，其次就是文生视频创作的作品进一步的替代现有的抖音、快手等视频社交软件中的短视频内容。

这个过程大致要经历这样几个步骤：第一步是生成视频；第二步是生成人类更喜欢和更能接受的视频；第三步是进一步降低AI视频的容错度；第四步是生成的视频时长更长；那最终呢，则是要实现把部篇小说输入进去，生成出一部相对比较完美的电影或者是电视剧。这一整个过程是需要比较长时间的打磨的，也并非一日之功。

7、青年学生如何抓住机遇？

“我们要把自己的灵魂跟AI融为一体，用1%的人的能力来调动99%的AI的能力。”

探小臻：随着AI视频技术在日常生活和专业工作中的应用日益增多，青年学生可以如何抓住这些机遇并应对挑战？

沈阳：对于当代的青年来说，最重要的就是一定尽快让AI介入到自己的学习生活中，真正用起来，借助AI把自己从单能培养到多能。以前，一个人的能力是非常有限的，比如学画画、学雕塑、学音乐都要耗费很大的精力、很长的时间。但是有了AI之后，每个人都可以在很短的时间内掌握绘画、音乐这些技能。

我的一个理念叫做“天人智一”，也就是天、人、人工智能三者的有机结合。这就意味着，我们要把自己的灵魂跟AI融为一体，用1%的人的能力来调动99%的AI的能力。与此同时，我们要将AI输出的结果作为新的起点，在此基础之上实现人的智慧和创意能力的增益，在与AI的交互过程中，逐步掌握问、创、改、优这四种能力，实现一种正反馈、正循环。

像我自己已经使用文本型AI超过1万次，使用图像型AI超过7000次。我们讲“拳不离手，曲不离口”，青年朋友可以将AI视为你的日常伙伴，我建议每天使用AI不要少于四个小时。

8、如何评价AI参与下的人际对谈？

“整体而言，我们的目标是要让每个个体都能生活得更好。”

探小臻：其实今天采访的这些提问几乎全部由人工智能生成。您如何评价今天这种机器参与下的人际对谈？

沈阳：今天的采访问题全部由AI生成我觉得完全没问题。我们并不在意这个内容是谁生成的，我们在意的是准不准确、有没有创新性、对大家有没有价值。比如，前面问题里面提到Claude 3是一个文生视频模型，这里可能就是出现了AI幻觉，或者存在数据库的滞后性，导致AI对最新的事实了解并不准确。那么在交流过程中，知情者可以发现这一点，但是未知情者也许不一定知道这个细节，从而带来一些误解。凡是事实类的内容，未来都可以用AI进行多次校正，从而避免AI幻觉的出现。

整体而言，我们的目标是要让每个个体都能生活得更好。在这一过程中，重要的是人类社会的知识能够得到一个很大的增强，无所谓这个知识是由AI提出的，还是由人类提出的。

沈阳，清华大学新闻学院教授、新媒体研究中心主任、元宇宙文化实验室主任。沈阳教授主要从事新闻传播学、计算机科学、图书情报学、医学四个专业方向的研究，涵盖人工智能、大数据、新媒体、元宇宙、网络舆论、虚拟人、机器人等多个方面。

内容转自：探臻科技评论微信公众号

点击扫码分享至微信

关于Sora，清华新闻学院沈阳教授有话说

相关文章

曹荣昀：大模型带来革命性变革，让机器人更具“生命力”

百度AI大模型文心一言各种版本的区别和特点

ChatGPT文生图功能迎重大升级：准确生成文字商用边界大幅拓展

关于Sora，清华新闻学院沈阳教授有话说

相关文章

曹荣昀：大模型带来革命性变革，让机器人更具“生命力”

百度AI大模型文心一言各种版本的区别和特点

ChatGPT文生图功能迎重大升级：准确生成文字 商用边界大幅拓展

ChatGPT文生图功能迎重大升级：准确生成文字商用边界大幅拓展