大模型科研能力哪家强？评价参考来了

人工智能正在科研方面展现出巨大潜力。然而，随着其应用逐步加深，一些问题也浮出水面：大模型解决学科领域问题的效能如何？科学数据供给的质量如何？是否有“裁判员”对大模型科研能力进行评价？

近日，由中国科学院计算机网络信息中心牵头建设的科学地平线（SciHorizon）平台正式上线。作为国际首个聚焦“数据+模型”角度、面向人工智能驱动科学研究的综合评价平台，科学地平线旨在评估大模型在科研领域的应用能力以及科学数据质量，为科研人员使用大模型高效解决科学问题提供参考。

在科学地平线网站的大模型科学领域能力测试榜单中，用户可根据不同学科浏览对应大模型排名。例如，在全学科排名中，DeepSeek-R1以71.68的综合评分暂列第一。

“考虑到一种大模型并非在所有学科领域都能展现出非凡能力，我们对学科类型进行分类，包括全学科、数学、物理学、化学、生命科学、地球与空间科学6种。”中国科学院计算机网络信息中心研究员祝恒书介绍，在不同学科下，依据知识、理解、推理、价值观、多模态这5项评价指标，大模型的表现能力会被重新排序。科研人员能据此迅速找到适配度高且综合能力更强的大模型辅助科学研究。

祝恒书补充说，针对大模型幻觉问题，团队正在构建能将科学价值观纳入评价的指标体系，推动大模型在回答科学问题时遵守科学伦理和道德规范，实现价值观对齐。

高质量数据是大模型的“成长燃料”。数据越丰富，大模型能“学到”的知识越多，能力也就越强。但是，并非所有数据都会帮助大模型不断“成长”。只有高质量数据能让大模型变得更“聪明”，低质量数据则会让大模型“变笨”。

在科学地平线网站的高质量科学数据推荐榜单页面上，分别列出了地球科学、生命科学、材料科学领域排名前十的数据集。其中，在地球科学领域，由中国科学院青藏高原研究所等机构发布的“中国气象驱动数据集（1979—2018）”暂列首位。

祝恒书介绍，为确保评价体系的合理性和公平性，研究团队共收集国内高校、科研院所等上百家机构发布的数据集，并从规范性、可用性、可解释性、合规性4个维度对数据集作出评价。每一维度下，还设置了不同子指标。“通过考核子指标，我们可以发现数据是否在某一维度内符合标准，从而对科学数据的质量作出综合评价。”祝恒书说。

“我们希望通过对高质量数据特征进行深度解析，为科研人员开展科学研究提供便利。”祝恒书表示，未来团队将构建“数据—场景—价值”的转化闭环，让每份数据都能在产业升级中释放最大动能。

不少专家预测，智能体将在科学研究中释放巨大潜力。祝恒书介绍，团队目前正开展面向科学领域的多智能体研究工作，并已在人工智能数字细胞方向取得阶段性进展，未来还将部署建设相关评测系统。

“该系统将聚焦科学工具调用与环境交互能力、跨领域协作能力和复杂任务拆解效能等核心指标，建立从基础理论验证到产业转化落地的全链条评测标准，为科研人员高效运用大模型开展科研攻关提供科学化、系统化指引。”祝恒书说。（记者薛岩）

扫码下载

扫码关注

扫码下载

交汇点新闻APP