新华日报财经讯 4月3日,“数智未来”高质量数据集开发者创新大赛结果公示将正式到期。在医疗健康赛道中,苏州市立医院团队拿下了一二名,斩获“数据开发者”方向一等奖。江苏省肿瘤医院卢欣、谭婧带队,斩获“高质量数据集”方向一等奖。
他们的故事,共同指向医疗数据产业的三个关键词:安全、专业、市场。
用“三方比对”给数据“确诊”
王一,南京医科大学附属苏州医院急诊医学专业研二学生。他和团队成员薛嘉怡在赛前就判断,这场比赛,临床医生有天然优势。
“数据标注,达到60分很容易。但要讲一个完整的故事,需要临床背景。”王一拿到高血压相关赛题后,聚焦“高血压靶器官损害”这一中间环节,把高血压的控制路径拆解成三步:控制不佳、靶器官损害、严重并发症。“把中间步骤标注清楚,后续研究才能精细。”
让评委眼前一亮的,是他对“未知”的处理。医学领域,不是所有问题都是“是”或“否”。患者没做某项检查,不代表有或无,而是“未知”。“未知也是一种特征,代表临床医生的选择。”王一在答辩时说。
为了确保标注准确,他在本地部署了一个千问3.5 9B大语言模型,设计了一套“三方比对”机制:代码跑一遍,大模型标一遍,自己再核一遍。三方结果不一致的地方,就是需要修正的漏洞。
“一开始代码和大模型的一致性只有70%,修到最后,97%一致。”他说。
赛后,王一的规划更坚定了:“临床医生在医学大数据领域应该做主导。”在南京医科大学急诊医学博士生导师、苏州市立医院党委书记陈彦教授和该院重症医学科(ICU)主任刘军教授的引导和支持下,他所在的医院也在着手建立高质量数据集,方向对了,成果能出。
为医疗数据“产品化”打样
卢欣回国前,在一家全球知名制药厂干了15年生物信息,也在医药数据产品公司做过数据科学总监。他见过成熟的医疗数据商业体系:有详细的脱敏规则,有清晰的数据字典,有可交易的合规路径。
回国后,他入职江苏省肿瘤医院,想做的第一件事,就是结合国内实际,将这套体系落地生根。“在医疗数据领域,国内还在跟随阶段。”卢欣说,“缺的是针对中国状况的实操规则。”
在医院领导和麻醉科主任谭婧的支持下,卢欣带领团队花近两个月,从多个系统里调数据,设计数据结构,做数据治理。仅“吸烟史”这一字段,就折腾了很久。它没被放在既往史里,而是藏在“个人状态”中。
“原始医疗数据的存储和管理方式,与做数据研究的需求并不完全一致。”卢欣为此写了一个AI程序,用语言模型处理非结构化文本,制定质量检查规则,筛查异常值。
最终,他们形成一套4个表、100多个字段的麻醉镇痛数据集,配套详细的数据字典和治理文档。这套成果的示例样本在大赛中获得认可,也为医疗数据如何“产品化”打了个样。
卢欣透露,江苏省肿瘤医院今年计划把胸部肿瘤、乳腺癌等重点癌种的数据先整理出来,做成全院通用的数据底座。“医疗数据产业刚刚开启探索,我们还有很多工作要做。”
可信数据空间为市场建设铺“路”
“医疗数据安全级别最高,这是社会共识。”传世博润高级副总裁袁立飞说。作为国家人口健康科学数据中心的技术支持企业,为推进大赛,该企业与江苏国际数据港联合为大赛开发了“可信数据空间”产品。
这次大赛,江苏省肿瘤医院参赛团队把肿瘤围手术期的麻醉镇痛和术后疼痛随访数据清洗提炼,成为一个数据集产品。为了安全,他们只上传了20条样例数据,且每一列都打乱重采。“医疗数据要确保隐私性和安全性,打乱的数据既展示格式,又不会有泄露患者个人信息的风险。”卢欣说。
真正让医院放心的是“可信数据空间”的机制:医院内部服务器部署轻量级连接器,一键加密传输;数字合约明确“数据仅限大赛使用,限制访问权限,赛后立即删除”;区块链为每一步操作盖时间戳,超权限访问文件永久不可用。
袁立飞说,“有了自研技术的底座,用户名+密钥双重确认,信任才能建立。”
在国家人口健康科学数据中心的指导下,传世博润在推动成果平台建设规划。“会邀约部分参赛团队参与相应研究课题,并提供实习、培训和就业机会。”袁立飞表示,对于参赛的企业,他们会助力其寻找精准买家,完成数据交易,也会在数据场景开发方面,给出重要建议。
这次大赛见证了医疗数据产业发展“启动”的重要节点。医疗数据从“资源”到“资产”的转化,正在一点点落地。
附:“数智未来”高质量数据集开发者创新大赛公示时间截至4月3日。
公示网址为:https://nsf-2025szwl.njbigdata.cn/web/resultAnnouncement
新华日报·财经记者 何玥颐 何钰 实习生 李耕臣 莫年雨

新华报业网
Android版
iPhone版