“数智未来”大赛之钢铁行业赛道｜数学公式走出实验室助力产线突围

新华日报财经讯 3月26日傍晚，“数智未来”高质量数据集开发者创新大赛获奖名单在报名网站公示。薛如冰所在的“高炉炼丹队”获得了“数据开发比赛”的一等奖。同期，南钢股份参赛团队获得了“高质量数据集比赛”的一等奖。

这两个团队，一个来自高校实验室，一个来自产业一线。他们的共同点，是在看似微小的技术细节里，“榨”出了极致。

山东大学金融研究院统计学专业的薛如冰和5位同门，在导师陈增敬教授指导下，分两组报名参加了“数智未来”大赛钢铁行业赛道。

“我们一开始觉得，这就是个预测问题啊，太擅长了。”当薛如冰和队友拿到来自钢铁赛道的9个Excel表格时才意识到，这不是一道普通的数学题。

这些数据，都来自钢铁产线，有高炉、焦炉、转炉的煤气产生量、柜容、峰谷电价……最大的表格有几十万条数据，最小的也有上万条。另外，数据的时间采样频率不一，有的1分钟，有的15分钟。

钢铁行业的数据，变量之间往往有极强的相关性。比如高炉煤气产生量和高炉柜流通量，比例关系几乎固定。“在我们做预测时，这会带来误导。”薛如冰说，学术上这叫“多重共线性”。

团队尝试了七八种方法，效果都不理想。“团队最大的争论和疑惑是，为什么常规方法和工具没用了。”薛如冰和队友花数小时反复建模、分析，最终发现原因：变量之间的相关性太强，常规线性模型会失效。最终使用的解决方案是“岭回归”，这是一种带惩罚项的回归方法。

评委在答辩时给了他们更多的思路。当数据统一归一化到15分钟，就损失了太多信息。“评委建议我们考虑用1分钟数据建模。”薛如冰说，如果真要建，每隔15分钟就要建一个模型，一天96个模型，算力负担太大，数据量不够。“但如果数据量足够，这个建议非常有价值。”他坦言。

赛前，团队成员对钢铁行业一无所知，他们查阅了6篇博士论文，试图了解钢铁行业的业务逻辑。“但真正拿到数据后，还是有一种纸上谈兵的迷茫。”薛如冰说。

大赛组委会组织的线下培训起到了一定程度的答疑释惑。“老师给我们讲清楚了钢铁行业的生产流程，包括高炉、焦炉、转炉和柜容的含义，峰谷电价的数据差别。”他说，“没有这些，我们根本无法融入课题。”

数据清洗花了20多个小时。9个Excel，几十万条数据，要剔除异常值、补全缺失值、统一采样频率，最终整合成2300多条数据、七八个特征。队友们笑称这是“沙里淘金”。

在钢铁赛道，山东大学参赛的两个团队表现突出。作为钢铁赛道的评审专家，山东大学国家应用数学中心研究员郭欣说，学生们的作品“超出预期”。事实上，“高质量数据集的背后，是高质量的数学工程。数据清洗、样本标注、人工智能的工作，背后都是数学模型、统计方法、优化算法。”他说。

薛如冰说，当下的问题是怎么把业务场景转化成数学问题。对他来说，这次比赛是一次重要的“破壁”体验。“以前觉得就业方向只有高校，现在发现企业的需求越来越多，也有了更多就业渠道。”他说，企业博士后站、硕士15-20万的年薪、博士20-30万的待遇，对毕业生很有吸引力。“我们更愿意做这种有挑战性的事，看到真实的效果，特别有成就感。”

在钢铁赛道的另一边，南钢股份团队用数据交出了另一份答卷。他们聚焦钢板表面缺陷检测，每月漏检超65起，吨钢质量异议费用0.2元。通过构建高质量数据集，六大类缺陷召回率达98.35%，检测速度提升95%，每年可挽回损失超500万元。