新华日报财经讯 9月9日,南京市公共数据融合开发中心与江苏省数交所南京区域运营中心正式揭牌,同期发布首批公共数据产品与高质量数据集,通过推动公共数据资源开发利用,为产业智能化升级提供高质量“数据燃料”。
高质量数据集是经过精炼、可直接驱动AI模型的“高标号燃油”。它不仅要求数据量大,更强调准确性、标注的规范性、结构清晰、覆盖的多样性,直接影响AI模型的性能上限。
南京市此次发布30个公共数据产品和27个高质量数据集。公共数据产品涵盖不动产、企业信息、健康档案等领域。高质量数据集产品延伸至文化传媒、医药研发、空天信息、智慧水务等垂直场景。

作为江苏首个实现数据资产入表的省级媒体,新华报业入选国家级文化传媒行业高质量数据集建设先行先试单位。活动现场,新华日报高级工程师戴志宇介绍,依托“1+3+10+N”架构,计划建成含1938年至今超20万个版面、200多万篇文章的历史报数据集,及智能媒资、舆情反馈等10类数据集,覆盖六大模态。这是数字化历史,更是构建文化AI“语料库”。目前数据集已用于红色理论学习大模型微调等30多个场景,未来将支持50多家企业、15家科研院所接入,形成“技术赋能—场景创新—价值转化”闭环。
高质量数据集正在医药领域大展身手,江苏省数据交易所即将上线医疗医药数据交易专区,江苏传古等企业也将参与运营,推动数据合规流通与价值释放。
“我们从临床研究、药学研发到医保支付,都依赖高质量数据集的支持。”江苏传古科技有限公司总经理赵博举例,在肿瘤精准诊疗中,通过高质量临床数据训练AI模型,显著提升靶点识别和用药指导的准确性。江苏传古是北京传世博润科技有限公司落地江苏的华东区域总部,是国内较早推动医疗数据资产化的企业之一。该企业联合院士团队,完成多项“行业首例”,包括首个临床数据产品交易、首个国家医学中心数据资产登记等。去年其数据服务收入近2亿元,较2020年增长12倍。
聚焦“生物技术+AI”,南京汉卫公共卫生研究院提供数据集搭建服务,同时自主构建生物医药高质量数据集,在疾病预警、慢病防治、肿瘤精准诊疗等领域成效显著。“数据就像公共卫生的‘听诊器’,能提前感知相关趋势和风险,”汉卫执行院长闫艳表示,在疾病预警方面可实现提前7天风险预测,准确率达85%以上,慢病管理覆盖700多万人,实现医保有效控费。目前多个肿瘤目标靶点通过AI进行药物设计,推动新药研发。
中科宇图作为空天信息与生态环境服务商,在江苏数交所已上架35款数据产品,其中20款为高质量数据集。其高精地图数据为自动驾驶提供车道级支撑,水体遥感数据可使水质预测准确率达75%以上。企业以“时空数据+AI”双引擎驱动,通过“天空地”一体化采集和处理,数据产品应用于通信、公安、保险、低碳治理等领域,形成跨行业的数据赋能生态。
南京城建运营集团与南京水务集团共同发布的“区域增压站运行高质量数据集”,是智慧水务领域的典型应用。该数据集融合泵站运行、天气、季节等多维数据,可用于预测用水高峰、优化供水压力、降低漏损率。“优质数据是提高决策效率和准确性的‘燃料’。”南京城建运营集团数智事业部副主任张壮表示。以往夏季部分居民反馈水压不足,如今通过数据驱动模型,可实现精准调度,提升用水体验。
新华日报·财经记者 何玥颐