“穿着时尚的女性漫步在布满霓虹灯的东京街头”“两艘海盗船在一杯咖啡内作战”……春节期间,几段画面精美的视频在人们的朋友圈里霸屏,而这些视频都由美国人工智能团队OpenAI新发布的视频大模型Sora创作。
Sora,这个词来源于日语中的“天空”,意在指向无限的创造潜力。在2022年底因发布ChatGPT一炮走红的OpenAI,又因Sora在全球内容创作行业卷起新的风暴。
比起ChatGPT发布后国内掀起“百模大战”,国内AI团队在“文生视频”领域也有所跟进,但均无法达到超越Sora的水平。那么Sora此次是否掀起了通用人工智能领域的革命?又会对哪些群体产生影响?

“构建世界模型”的时代即将到来?
“Sora的诞生,意味着AGI(通用人工智能)实现可能从10年缩短至一两年。”这是Sora发布后,360创始人周鸿祎在微博上发布的看法。
只需要一段20—30词的文本指令或一张静态图像,就可以生成一段视频,不论是写实还是动画风格、宽屏还是竖屏,皆可任意选择。虽然Sora并非首个可以通过文本生成视频的大模型,但在时长、分辨率等视频生成模型的关键指标上,比起先前的Runway、Pika等文生视频产品,Sora可谓“一骑绝尘”。
当记者亲身体验了此前某款视频大模型生成产品,在生成的10秒视频中,人物表情僵硬、动作不协调,视频也无法正确呈现文字描述,与Sora成功的演示视频相比,确实相差巨大。
“Sora的技术亮点是让AI内容编辑和生成实现了从文本、图像到视频的本质跨越。”中国计算机学会理事、南京理工大学计算机科学与工程学院副院长肖亮指出,Sora的底层技术并不算新,但优势在于“博采众长”,以扩散型变换器模型(Diffusion Transformers)、时空图像子块等技术为基础,这些技术也建立在过去对GPT和扩散模型的研究之上。可见Sora的发布并非偶然,而是多项技术积累、共同作用的结果。

虽然OpenAI暂未开放Sora的公开试用,但从目前释出的演示视频中可以观察到Sora技术优势的蛛丝马迹。肖亮解读,Sora在技术上的“颠覆性”主要体现在三个方面:一是突破了当前视觉大模型“60秒超长视频”生成瓶颈,以往的视频模型大多只能生成不超过10秒的视频,Sora能在保证视频时长的同时,还保持人物和场景的连贯;二是能呈现多角度镜头一镜到底,逼真表现光影几何、物理关系;三是能够较为真实地遵循物理世界的规律,比如在公开的视频中,画笔会在画布上留下水墨、人吃汉堡会留下咬痕。
OpenAI对Sora的定位颇具野心,号称并不仅是“文生视频”的工具,而是一个通用的“物理世界模拟器”,意在复现真实世界重力、摩擦力等物理现象。这样的定位使得Sora未来有望成为跨越各行各业的“超级工具”,可被用于模拟天气变化、自动驾驶、生物行为甚至军事场景等等。
对此,深耕计算机图形学多年的南京大学计算机科学与技术系长聘副教授过洁表示,实际上,早已有多条技术路径都瞄准了“模拟物理世界”这一目标,只不过实现方式不同。比如,在计算机图形学中,主要使用建模、渲染、动画等方式来模拟现实世界中的物理现象。而Sora的技术路径可以理解为“数据驱动”, Sora通过学习视频来理解现实世界的动态变化,并用计算机视觉技术模拟这些变化。

“其实从Sora的一些‘翻车’视频可以看出它在理解物理时会遇到困难,比如一条典型的视频,就是人反向走在跑步机上。”过洁以游戏举例,假设在一款射击游戏中,玩家想要走出屋子射击“敌人”,Sora很可能会让玩家“穿墙而去”。“Sora是否知道墙是一道物理障碍?在它塑造的世界规则中,是否有这么一条规矩,规定墙是不能穿过的?这些都是未知。”
“Sora接受的所有训练都是人类‘喂’给它的,其实还是没有跳脱出现阶段人类知识的认知范围。目前还有许多物理规律连人类都还没有掌握,那么人类还没踏足的知识领域,Sora可能也无法理解。”过洁说。
创意工作中AI仍难以替代人类
“过往的人工智能产品,多半可以分为‘以文生文’‘以文生图’等类型。它们大多是根据网上已有的语料来进行内容产出,但对于我们的工作生活并没有特别大的改变。”南京大学人工智能学院院长周志华分析,大家之所以对“文生视频”的反应“有点大”,是因为通过文字输入来生成视频这种方式,很容易让大家感同身受。在国外,已经有电影制作公司开始通过AI进行影片的制作。这一改变,对于影视行业来说无疑是一大变化。
影视娱乐行业的内容创作者群体,成为最早拥抱AI创作工具的探路人之一。国内头部影视公司AI项目负责人王钰媛告诉记者,自2022年5月“文生图”工具Midjourney推出测试版本,她便开始探索AI为内容创作带来的可能性。“AI目前在影视的全流程都有所应用,涵盖前期开发、中期制作、后期宣发整个链条。比如在影视项目的前期开发中,AI可以协助头脑风暴,激发‘脑洞’,还可以辅助背景调研、制作策划书、润色大纲、评估IP等等。”
王钰媛给记者举了一个例子:“在动画电影的角色设计过程中,需要完成角色的配色、服装、整体的线稿等。传统情况下,美术设计师要用三四天的时间完成这些工作,如果导演不满意,还需要好几轮沟通和修改。利用AI,便能迅速生成很多案例,给导演和制片方更多选择,减少许多沟通成本。”
就在3月6日,一部自称“完全由AI制作的开创性长篇电影”即将在洛杉矶首映。这部《终结者2》的翻拍作品,由50位艺术家组成的团队组成。据悉,团队使用了Midjourney、Runway、Pika等多个AI工具进行创作。
AI工具生成的内容质量是否能达到商业水平?观众是否会买账?对此疑问,结合过往的使用经验,王钰媛告诉记者,目前从整体质量上来讲,AI生成的内容离商业质量要求还是相距甚远。“比如,控制影片特定画面的风格、色调,保持角色的一致性,制作连贯的长镜头,都是AI难以实现的。AI工具还是更偏向于辅助、提供灵感和参考,没有办法完全取代某一个环节。”
“不过,现在我们能看到大模型的潜力,它们确实是有可能颠覆传统电影的商业模式。传统的影视制作,需要编剧、导演、制作团队、演员等共同协作,工种细分程度很高。”王钰媛说,“但在近几年兴起的短视频中,遵循‘黄金三秒定律’的短视频,无需在制作上多么精良,但对视频创意的要求很高,需要立刻抓住观众眼球。对于这些短视频创作者,AI就可以成为很好的辅助。”
在未来的“眼球争夺战”中,拼创意将成为趋势。“曾经一个专业团队才能制造出的影片,现在有可能一个人就能完成。不需要商业融资、不需要花几千万请演员、摄影师,人人都可以成为创作者。”王钰媛推测,AI将会给观众带来更多可选择的娱乐产品,除了电影、电视剧,如短视频、游戏等更多节奏紧凑、领域细分的内容和产品,也将呈现爆发式增长。
“我认为AI工具冲击的不是某个具体的工种,而是传统行业,或者说是一类带有固定思维的人群。”王钰媛说。
新浪潮来袭,教育何为?
“尽管国内大模型产品如雨后春笋大量涌现,但实际发展上还是与美国存在差距。”业内人士表示,究其原因,总要落在算力、数据和人才三个方面。
3月5日发布的政府工作报告指出,深化大数据、人工智能等研发应用,开展“人工智能 +”行动,打造具有国际竞争力的数字产业集群。人工智能无疑已经成为产业创新的关键抓手和引擎之一。在今年江苏省政府工作报告中,也重点指出,要更大力度发展数字经济,以人工智能全方位赋能新型工业化,积极构建特色化行业大模型,打造人工智能创新应用先导区。
“江苏在发展人工智能大模型方面,其中一个优势就是高校资源非常充分。但我们在以往的调研中发现,江苏面临的严峻问题之一就是如何守住人才,江苏各个高校培养的顶尖人才的外溢现象比较明显,这和相关政策、产业结构也有一定的关联。”过洁指出。
2月27日,南京大学宣布将于今年9月面向全体本科新生开设“人工智能通识核心课程体系”,属全国高校首创。据悉,学校将建设“1+X+Y”三层次“人工智能通识核心课程体系”,以1门必修的人工智能通识核心课+X门人工智能素养课+Y门各学科与人工智能深度融合的前沿拓展课为基础,从知识、能力、价值观与伦理三个维度开展教育教学。
“我国以往人工智能人才培养总体规模小,难以适应人工智能事业发展的需要。近几年我国许多高校都建立了人工智能学院,从本科开始专门培养人工智能专业人才,这是一个好开端。”周志华表示,在培养体系方面,我国在人工智能本科人才培养上已经跟最发达国家同步。南京大学在这方面已经做了很多探索,2018年成立我国C9高校中第一个人工智能学院开始从头培养本科生,并率先发布了我国第一个人工智能本科专业教育培养体系。经过四年完整的一轮本科生培养过程,去年发布了第二版,体系更加优化完善,在国内人工智能专业教育方面发挥了引领作用。
“从人工智能领域的发展来看,重要的是打通‘基础研究—人才培养—创新技术—产业发展’的通道。20年前我们国内人工智能基础研究水平很弱,在几大顶级会议上国内学者论文罕见,但现在几乎所有的人工智能顶级会议都有大量的国内论文。”周志华说,“基础研究水平提高了,直接带来的就是国内大批研究生能够接触和从事国际接轨的研究课题。这样,有一些学生就自然会走到前沿,他们不仅能促进基础研究,还会促进领域技术创新,在工作后成为人工智能业界的生力军,为我国人工智能产业蓬勃发展作贡献。”
新华日报·交汇点记者 杨易臻 张宣 蔡姝雯