下载app

扫码下载

扫码关注

新华报业网  > 首页 > 正文
新华时论|让AI“干得好”,先得让它“吃得好”

4月24日,在南京举办的“数智未来”高质量数据集开发者创新大赛成果发布会上,中国工程院院士、清华大学教授郑纬民表示:“目前关于机器学习有句流传很广的说法‘垃圾进,垃圾出’,如果没有高质量数据,模型只能‘说得流利’,但会‘胡说八道’。”这一观点很有针对性。

自AI大模型出现以来,“胡说八道”的例子层出不穷。比如,有人让大模型续写《红楼梦》,竟得出“贾宝玉倒拔垂杨柳”的奇景;一位高考生的哥哥在查询高校信息时,AI不仅生成错误信息,还底气十足地表示内容有误将赔偿10万元,结果被当事人告上法庭,成为国内首例因“AI幻觉”引发的侵权案。日常生活中,我们也常有这样的感受,依赖AI生成的报告,其中很多数据、案例都是凭空捏造,让人哭笑不得。

怎么才能让AI少犯错误、多干实事?答案在于先要让它“吃得好”。如果说算力是人工智能的“灶火”,算法是“厨艺”,那么数据就是“食材”。和人一样,AI同样需要大量的数据作为“粮食”,来进行模型训练和深度学习。同样的模型框架,有人跑出来是“学霸”,有人跑出来却是“学渣”,秘密往往不在算法本身,而在于模型每天“吃”进去的,是精心甄选的“高端食材”,还是毫无营养的“垃圾食品”。高质量数据集,就是经过处理,可直接用于AI模型训练、能有效提升模型性能的数据集合,储存着AI所需的高价值、高密度、标准化的“粮食”。

当前,国内大模型发展突飞猛进,在很多方面已经“跟跑”甚至“领跑”全球,但存在一个不容忽视的短板就是训练数据集比国外公司要小得多,简而言之,“吃不饱”。正是在这种背景下,今年政府工作报告首次提出“建设高质量数据集”;“十五五”规划纲要也提出“加快建设人工智能语料库”。一些举措正在加速落地,国务院国资委发布首批30余项央企人工智能行业高质量数据集,江苏也发布了首批16个重点领域的高质量数据集建设清单,锚定工业制造、医疗健康等富集领域发力。一条从国家战略到地方实践的数据“新基建”脉络,渐渐清晰。

让AI在通用语料上“吃得饱”,还得让它融入产业场景“吃得好”。今年3月在南京举办的高质量数据集开发者创新大赛,提供了一组值得关注的数字:南钢团队围绕钢板表面缺陷检测构建的高质量数据集,让检测速度提升95%,效率较人工提升10倍以上;省肿瘤医院团队基于临床疼痛数据构建的数据集,直接服务于精准麻醉和新药研发。这些基于真实场景的数字告诉我们:高质量发展智能经济,最重要的可能不是算力和算法,而是数据集有多深、多真、多准。

当然,短板与挑战同样不容回避。当前我国大模型数据集的产出仍然面临数据汇聚产量低、供给质量低、利用效率低等挑战,企业在数字化转型中沉淀的海量数据,仍有相当比例处于“沉睡”状态,标准化治理与价值挖掘尚在起步阶段。正因如此,不少地方正在加速构建“政产学研用”协同的数据产业生态。像南京市玄武区打造的江苏国际数据港,落地了全省唯一的高质量数据集产业基地、江苏数据交易所等重要平台,汇聚各类数字经济企业超千家,构建集群式发展的“数据雨林”。

让AI“吃得好”,智能经济才能“长得壮”。高质量数据集建设没有捷径,既依赖政策层面的顶层设计和基础设施配套,也考验企业在真实场景中的数据沉淀与治理能力,更离不开标注、清洗、脱敏等环节的标准化和规模化。让人工智能跑得既快又稳,就得有耐心、有定力,把这些“饭”一碗一碗地做好、喂好。

陈立民)

责编:魏晓敏
版权和免责声明

版权声明: 凡来源为"交汇点、新华日报及其子报"或电头为"新华报业网"的稿件,均为新华报业网独家版权所有,未经许可不得转载或镜像;授权转载必须注明来源为"新华报业网",并保留"新华报业网"的电头。

免责声明: 本站转载稿件仅代表作者个人观点,与新华报业网无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或者承诺,请读者仅作参考,并请自行核实相关内容。

专题
视频

扫码下载

交汇点新闻APP

Android版

iPhone版

分享到微信朋友圈
打开微信,点击底部的“发现”,使用 “扫一扫” 即可将网页分享到我的朋友圈。
分享到QQ
手机QQ扫描二维码,点击右上角 ··· 按钮分享到QQ好友或QQ空间