智象多模态生成大模型3.0发布离幻觉更远与离落地更近

12月28日，智象未来科技有限公司在安徽人工智能产业先导区启动仪式中，正式发布智象多模态生成大模型3.0版。

启动仪式上，智象未来创始人兼首席执行官梅涛总结了2024年人工领域技术发展的五个标志性事件，分别是以Sora为代表的视觉生成物理世界模拟器、以Chat GPT 4o为代表的多模态模型、以GPT－o1为代表的从预训练到后训练推理优化、多模态大模型赋能具身智能实现软硬件结合，以及人工智能学者荣获诺贝尔化学奖表明AI赋能科研范式变革。可以说，过去一年中，AI技术的未来发展路径和应用实践的方向正愈发清晰。

梅涛认为，多模态大模型是通往AGI的必经之路，其能够比单一模态模型更好地模拟物理世界。而多模态大模型的技术演进是线性的，但是在不同的技术路线中又可以实现跳跃式发展。基于以上判断，本次智象未来发布的智象多模态生成大模型3.0带来了图像和视频生成能力的全面升级，具体包含了画面质量与相关性提升、镜头运动和画面运动更可控以及多场景驱动的优化。

同时，智象未来还推出了智象多模态理解大模型1.0版，理解大模型1.0版通过对物体级别的画面建模以及事件级别的时空建模，实现了更精细、准确的图像与视频内容理解。这一理解大模型也进一步服务于理解增强的多模态生成技术，搭配多模态生成大模型实现多模态检索＋多模态内容编辑与生成的二创平台系统，进一步降低用户的使用门槛并且大幅提升基于IP的多模态内容生成效果。

在模型升级的基础上，智象未来旗下多款产品也有了新的体验提升。例如，智象创作工具平台秉持“能打字，就能做视频”的理念，基于智象多模态生成大模型呈现了全新的模型交互体验。在新版本中，平台实现了与用户的自然语言交互，在原有文生视频的基础上，增加了对视频局部进行语音指令输入的调整。还可以基于用户上传的视频内容，整理成相关的模型输出指令。这一功能将极大的降低创意工作者使用AIGC工具编辑视频的学习门槛，从而提升视频创作的工作效率。

目前，智象未来拥有国内最全的多模态版权语料，包含数十万小时版权视频素材和上万个授权IP，涵盖国内70％影视数据，已形成上亿条AIGC二次创作素材，在影视、文旅、通信、营销、教育等多场景得到广泛应用，已累计服务全球一百多个国家和地区的一千多万用户和四万多家企业客户。

本次活动现场，智象未来与人民网、上海电影集团、彩讯科技、捷成华视网聚、安徽联通、中国移动咪咕音乐等12家生态伙伴企业代表签约，共同打造集技术研发、产业化应用、市场推广于一体的生态体系。

扫码下载

扫码关注

扫码下载

交汇点新闻APP