新华日报财经讯 3月26日傍晚,“数智未来”高质量数据集开发者创新大赛获奖名单在报名网站公示。薛如冰所在的“高炉炼丹队”获得了“数据开发比赛”的一等奖。同期,南钢股份参赛团队获得了“高质量数据集比赛”的一等奖。
这两个团队,一个来自高校实验室,一个来自产业一线。他们的共同点,是在看似微小的技术细节里,“榨”出了极致。
山东大学金融研究院统计学专业的薛如冰和5位同门,在导师陈增敬教授指导下,分两组报名参加了“数智未来”大赛钢铁行业赛道。
“我们一开始觉得,这就是个预测问题啊,太擅长了。”当薛如冰和队友拿到来自钢铁赛道的9个Excel表格时才意识到,这不是一道普通的数学题。
这些数据,都来自钢铁产线,有高炉、焦炉、转炉的煤气产生量、柜容、峰谷电价……最大的表格有几十万条数据,最小的也有上万条。另外,数据的时间采样频率不一,有的1分钟,有的15分钟。
钢铁行业的数据,变量之间往往有极强的相关性。比如高炉煤气产生量和高炉柜流通量,比例关系几乎固定。“在我们做预测时,这会带来误导。”薛如冰说,学术上这叫“多重共线性”。
团队尝试了七八种方法,效果都不理想。“团队最大的争论和疑惑是,为什么常规方法和工具没用了。”薛如冰和队友花数小时反复建模、分析,最终发现原因:变量之间的相关性太强,常规线性模型会失效。最终使用的解决方案是“岭回归”,这是一种带惩罚项的回归方法。
评委在答辩时给了他们更多的思路。当数据统一归一化到15分钟,就损失了太多信息。“评委建议我们考虑用1分钟数据建模。”薛如冰说,如果真要建,每隔15分钟就要建一个模型,一天96个模型,算力负担太大,数据量不够。“但如果数据量足够,这个建议非常有价值。”他坦言。
赛前,团队成员对钢铁行业一无所知,他们查阅了6篇博士论文,试图了解钢铁行业的业务逻辑。“但真正拿到数据后,还是有一种纸上谈兵的迷茫。”薛如冰说。
大赛组委会组织的线下培训起到了一定程度的答疑释惑。“老师给我们讲清楚了钢铁行业的生产流程,包括高炉、焦炉、转炉和柜容的含义,峰谷电价的数据差别。”他说,“没有这些,我们根本无法融入课题。”
数据清洗花了20多个小时。9个Excel,几十万条数据,要剔除异常值、补全缺失值、统一采样频率,最终整合成2300多条数据、七八个特征。队友们笑称这是“沙里淘金”。
在钢铁赛道,山东大学参赛的两个团队表现突出。作为钢铁赛道的评审专家,山东大学国家应用数学中心研究员郭欣说,学生们的作品“超出预期”。事实上,“高质量数据集的背后,是高质量的数学工程。数据清洗、样本标注、人工智能的工作,背后都是数学模型、统计方法、优化算法。”他说。
薛如冰说,当下的问题是怎么把业务场景转化成数学问题。对他来说,这次比赛是一次重要的“破壁”体验。“以前觉得就业方向只有高校,现在发现企业的需求越来越多,也有了更多就业渠道。”他说,企业博士后站、硕士15-20万的年薪、博士20-30万的待遇,对毕业生很有吸引力。“我们更愿意做这种有挑战性的事,看到真实的效果,特别有成就感。”
在钢铁赛道的另一边,南钢股份团队用数据交出了另一份答卷。他们聚焦钢板表面缺陷检测,每月漏检超65起,吨钢质量异议费用0.2元。通过构建高质量数据集,六大类缺陷召回率达98.35%,检测速度提升95%,每年可挽回损失超500万元。
南钢股份参赛团队成员、人工智能研究院庞博说,印象最深刻的是技术细节的“榨干式”打磨。“五张显卡、每张卡六个模型实例、一张图片切六份……从100毫秒到10毫秒的切图优化,从base64格式body体到字节流的传输改造,最终系统时延从600毫秒降到200毫秒。”
郭欣对此不吝赞赏:“参赛企业扎根产业、用技术破局,印证了高质量数据集是企业核心竞争力的重要组成部分。”
附:“数智未来”高质量数据集开发者创新大赛公示时间截至4月3日。
公示网址为:
https://nsf-2025szwl.njbigdata.cn/web/resultAnnouncemen
新华日报·财经记者 何玥颐 何钰 实习生 曹文婷 林肖烨

新华报业网
Android版
iPhone版