全国首次！中国AI代码大模型基准测试结果在南京发布

近日，中国人工智能产业发展联盟（简称AIIA）第十四次全体会议暨人工智能赋能新型工业化深度行（南京站）活动在南京成功召开。会上，“方升-Coder”代码大模型首次基准测试结果重磅发布。

当前，以大模型为代表的人工智能技术飞速发展，代码是大模型重要能力之一，代码大模型已成为软件开发工程师的必备工具，如何准确评估大模型的代码能力，充分挖掘其优势与不足是业界持续关心的问题。AIIA于2025年正式启动了“方升-Coder”基准测试，以代码大模型标准为依据，通过精心设计科学合理的测试任务和测试数据，实现对大模型的代码能力客观、公正且全面的评估。

此次“方升-Coder”代码大模型基准测试共涉及主流大语言模型21个，其中国内大模型15个、国外大模型6个，测试过程围绕代码生成、代码解释、代码注释三个维度对国内外大模型能力进行详细测试。测试结果表明，推理模型相较基础模型的代码综合能力更优；相关大模型代码理解任务表现趋同，代码生成任务差异显著；大模型在代码注释、代码解释、代码生成任务中的能力依次递减。

下一步，南京将抢抓机遇，加入“方升”合作伙伴计划，吸引更多大模型头部企业来宁布局发展，支持制造、能源等领域企业与大模型头部企业深度合作。同时，推动南京人工智能企业依托现有大模型服务能力，积极支撑参与基准测试建设，为国家AI标准体系贡献更多南京力量。

扫码下载

扫码关注

扫码下载

交汇点新闻APP