AI周爆｜Manus牵手阿里通义千问团队，OpenAI推出AI智能体工具

人工智能领域瞬息万变，《AI周爆》栏目为您精选本周最热的全球AI领域动态。

本周，Manus与阿里通义千问团队宣布合作；谷歌开源多模态模型Gemma 3并革新图像生成技术；OpenAI在本周向美国政府提案要求封禁中国AI公司DeepSeek；生成式AI技术赋能创作生态，国产“谜境Agent”与“狸谱”等应用引发关注。

Manus与阿里通义千问团队达成合作

近期爆火的Manus 平台于3月11日宣布，将与阿里通义千问团队正式达成战略合作。双方将基于通义千问系列开源模型，在国产模型和算力平台上实现 Manus 的全部功能。阿里通义方面回应称，Manus 和通义千问确实在进行开源模型方面的合作，“我们期待与更多全球AI创新者开展合作。”

这一决策直接回应了3月5日产品发布后遭遇的“破解危机”——因过度依赖Claude Sonnet模型，Manus被质疑为“工具集成商”，甚至开源社区迅速推出复刻版OpenManus。

钉钉总裁叶军评价：“这次合作是中国AI智能体从‘实验室到市场’的关键一跃。”

Manus是由中国团队Monica.im开发的通用型自主AI Agent（智能体）。Manus的工作原理是基于底层AI大模型的能力基础，通过自主任务分解将复杂任务拆解为多个子任务，并动态调用不同的Agent或工具来执行每个子任务，最终完成整体任务。

OpenAI向美政府提案要求禁用 DeepSeek

3月13日，据美国消费者新闻与商业频道（CNBC）消息，OpenAI向特朗普政府提交了一份最新的15页报告，从监管政策、出口限制、AI基础设施等多个维度介绍了美国该如何保持全球AI领导地位。

今年1月，特朗普撤销了此前美国AI行政命令《安全、可靠和值得信赖的人工智能开发与使用》，随后签署了一项新的行政命令，宣布“美国的政策是维持并提升全球人工智能领域的主导地位”，并要求在180天内提交一份AI行动计划。

OpenAI的提案针对的是即将由美国科学技术政策办公室起草、计划于7月提交给特朗普的《AI 行动计划》。

在OpenAI提交的15页提案中，直接呼吁美国政府立法禁止DeepSeek。OpenAI在提案中写道：“虽然美国目前在人工智能领域依旧保持领先态势，但DeepSeek证明我们的领先优势并不大，而且正在缩小。”

OpenAI还强调，如果州政府颁布了相关规定，政府应考虑为大大小小的AI公司提供豁免，以换取它们自愿使用模型的权利。

此前，OpenAI曾指控DeepSeek在违反其服务条款的情况下“蒸馏”OpenAI模型的知识，因此受到大量关注。对此，科技媒体TechCrunch则认为，DeepSeek的开源模型并未内置获取用户数据的机制。包括微软、Perplexity 和亚马逊在内的公司，都在其自身基础设施上托管了这些模型。

据报道，今年1月份，DeepSeek的应用在美国迅速走红，一度在苹果应用商店榜单超过了ChatGPT。DeepSeek的模型开发成本仅为OpenAI、Anthropic、谷歌等竞争对手的一小部分，引来美国人工智能专家和投资者的普遍担忧。

谷歌推出开源多模态大模型Gemma 3、图像生成工具Gemini 2.0 Flash

3月12日，谷歌宣布推出开源多模态大模型Gemma 3，谷歌博客中说，这是其迄今为止最先进、最便携、最负责任开发的开放式模型，是“世界上最好的单GPU模型”。

Gemma 3采用与Gemini 2.0相同的研究和技术，支持超过35种语言，并能够分析文本、图像和短视频。其优势在于可以直接在手机、PC、工作站上快速运行，参数规模有1B、4B、12B和27B四种，开发者可以根据特定硬件和性能需求选择。

Gemma 3-27B在LMArena竞技场获1339 ELO分，击败多个大型模型，成为仅次于DeepSeek R1的最优开源模型。

3月12日，谷歌不仅发布了开源AI模型Gemma 3，还推出了具备原生图像生成功能的Gemini 2.0 Flash。这是一个实验性模型，可通过Google AI Studio免费使用，开发者也可以通过Google 的 Gemini API调用。

这是美国主要科技公司首次在模型中直接为用户提供多模态图像生成功能。此前的AI图像生成工具大多是将扩散模型（专门处理图像）与大语言模型（LLM）连接使用，需要在两个模型之间进行解释才能生成用户通过文本提示要求的图像。

相比之下，Gemini 2.0 Flash可以在用户输入文本提示的同一模型中原生生成图像，理论上可以实现更高的准确性和更多的功能。

Gemini 2.0 Flash于2024年12月首次亮相，但当时用户无法使用原生图像生成功能。它整合了多模态输入、推理和自然语言理解功能，可以同时生成图像和文本。

开发者可以使用Gemini 2.0 Flash生成插图故事，同时保持人物和场景的一致性。该模型还可以响应反馈，允许用户调整故事或更改艺术风格。例如，你可以提示它生成一个带图片的故事，然后通过自然对话引导它达到完美的版本。

有网友实测，Gemini 2.0 Flash可以生成一个人在黑板上写字的图片，在自然语言的指令下，黑板上的字可以发生改变。

科技媒体the Rundown AI称，这一升级是改变人工智能生成视觉内容方式的重要一步，从专用的图像模型转向能够自然理解文本和视觉的语言模型。自然语言提示已经接管许多其他领域，图像编辑似乎将成为下一个目标。

OpenAI推出AI agent工具包

3月12日，OpenAI推出一套专为简化AI agent应用开发的全新工具包，包括：

1、全新的Responses API⁠，融合了Chat Completions API的简洁性和Assistants API的工具使用能力，专为构建Agent而设计。

2、内置工具包括网络搜索⁠、文件搜索⁠和计算机使用

3、全新Agents SDK⁠，用于编排单Agent及多Agent工作流程。

4、集成的可观测性工具，用于追踪和检查Agent工作流执行情况。

在产品发布直播中，演示人员也向观众展示了一个“个人造型师”Agent的应用案例。

举个例子，他们先用文件搜索工具翻看了用户“Kevin”的服装喜好数据，系统轻松整理出这些人的穿衣风格。

然后结合Web搜索工具，系统能够基于用户所在位置（演示中使用了“东京”作为Kevin的位置）搜索附近的相关商店，为Kevin推荐了东京的Patagonia店铺。

接着，计算机使用工具（Computer Use Tool）登场，自动操作网页界面，为Kevin买下一件黑色Patagonia夹克，整个过程行云流水——点击、拖拽、填信息，宛如真人在操控。

最后还演示了Agent间的交接功能。一个Agent将退货请求无缝交接给客服Agent，后者能够调用获取密码和提交退款请求等功能，帮助用户完成 Patagonia夹克的退货。

可以说，凭借新工具和API的默契配合，这些AI Agent不仅能读懂用户喜好、获取实时资讯、执行复杂操作，还能在不同任务间灵活切换，完美覆盖从推荐到购买再到退货的全流程。

生成式AI赋能垂直领域，国产应用不断涌现

近日，国产创作型Agent工具＂谜境Agent＂正式上线，专注于互动小说创作，将传统4—6个月的创作流程压缩至5—10分钟。

该工具搭载DeepSeek R1模型，具备快速生成剧本大纲、自动生成角色图及场景图、自动配音配乐等功能。谜境Agent支持边玩边制作模式，可自动构建画面交互逻辑，支持选项/点击/数值等多种互动玩法，用户可随时一键修改内容。

近期还有AI二次元社区“狸谱”迅速走红，月活突破100万，在苹果应用商店“图形与设计”榜单一度冲至第2名，站内已有7000万张图片。该平台主打“抽象”创作，推出炖图、动态Live、灵魂提取器、挂件等功能，让“手残党”也能轻松创作二次元内容。

狸谱背靠“阶跃星辰”技术支持，精准切中二次元圈创作需求，成功在线上线下同时破圈，成为年轻人释放“厨力”的新平台。

潞晨科技推出开源视频生成模型Open-Sora 2.0

3月13日，潞晨科技正式推出开源视频生成模型Open-Sora 2.0。该模型基于先进的深度学习算法，能够高效生成高质量视频内容，支持多种场景和风格的自定义创作。该款视频大模型使用20万美元（224张GPU）成功训练出商业级11B参数视频生成大模型，全面提升视频生成的可及性与可拓展性。

权威评测VBench及用户偏好测试均证实其卓越表现，在多项关键指标上媲美动辄数百万美元训练成本的闭源模型。

新华日报·交汇点记者杨易臻蔡姝雯张宣综合整理自网络

扫码下载

扫码关注

扫码下载

交汇点新闻APP