
发布日期:2025-06-26 15:41 点击次数:168
2025年6月6日,天津市大数据协会联合天津市算力产业发展联盟在天津市数据局的指导下举办了“天津市医疗健康高质量数据集建设研讨会”。本次大会邀请到了市数据局相关处室负责同志、天津市河西区数据局、和平区数据局、河北区数据局、东丽区数据局、南开区数据局及数据发展中心、津南区数据局、宁河区数据局相关领导以及各区卫健委领导、医疗机构、企业、协会及高校等各界代表齐聚一堂,共同围绕医疗健康行业高质量数据集建设及数据汇聚、治理、共享、应用、安全等数据要素运营展开深度研讨,旨在展示先进成果,交流实践经验,探索天津发展新范式。
在主题分享环节,中国信息通信研究院人工智能研究所平台部副主任,工信部人工智能关键技术与应用评测重点实验室数据组组长、中国人工智能产业发展联盟数据委员会主任李荪聚焦《人工智能高质量数据集建设思路和应用》这一话题进行分享,相关观点如下:
01
政策与技术双轮驱动,构建高质量数据集发展新范式
政策层面,国家与地方协同布局 “人工智能+高质量数据集” 战略。《“数据要素×” 三年行动计划》明确提出打造大模型训练数据集,国务院国资委发布首批30项央企高质量数据集,沈阳、保定等7个数据标注基地已建成335个高质量数据集。地方政府如上海、苏州等地通过规划引领、案例示范和奖补激励,加速数据集建设落地,2025年2-4月密集出台的11项地方政策,凸显了产业发展的紧迫性。
技术层面,大模型演进对数据集提出 “规模、种类、质量” 三重挑战。DeepSeek等模型开创 “适量高质+推理型+数据蒸馏+人类协同” 新范式,通过自动化生成、数据蒸馏与强化学习技术,提升数据标注效率与推理能力。
02
数据飞轮效应凸显:从资源到壁垒的产业价值重构
高质量数据集正成为企业构筑竞争壁垒的核心要素。在算法趋同、算力普惠的背景下,“数据飞轮” 效应形成马太效应 —— 拥有优质数据集的企业可研发高性能行业大模型,进而在应用中采集更多数据反哺模型迭代。例如,招商局集团、中国建筑等央企通过构建物流、建筑行业专属数据集,形成差异化竞争力;国家呼吸医学研究中心整合多模态医疗数据,推动AI在疾病诊断领域的突破。
中国信通院指出,高质量数据集具备 “高技术含量、高知识密度、高价值应用” 特征,覆盖制造、金融、医疗等十大重点行业,可划分为通识类、行业通用类、行业专用类,贯穿预训练、监督微调、强化学习等模型训练全阶段,为跨领域知识图谱构建与行业场景深度适配提供支撑。
03
数据工程能力五大要素:破解建设痛点的关键路径
针对目标定位模糊、实施路径碎片化、技术底座薄弱等挑战,报告提出人工智能数据工程五大核心要素:
体系建设
构建知识索引与资源地图,制定全周期标准体系,如上海提出 2025 年形成 1000 个高质量数据集的目标;
开发维护
通过数据工厂模式实现规模化生产,结合合成数据、智能化标注等技术突破数据局限;
质量控制
建立多维度量化评估体系,如中国信通院 “ADAQ” 评估体系涵盖 12 类一级指标、36 类二级指标;
资源运营
完善数据流通交易机制,沈阳、保定等地通过数据标注基地建设推动资源整合;
合规可信
强化数据安全与版权管理,确保数据集可溯、可控、可用。
04
信通院实践:构建全链条生态服务体系
作为行业引领者,中国信通院构建 “标准-评估-平台-生态” 全链条能力:发布国内首个人工智能数据集质量评估体系(ADAQ),开发自动化评估工具,支撑招商局、百度等企业将数据质量评估纳入供应商准入标准;联合保定、沈阳等地建设数据处理与评测中心,推动 “长三角人工智能数据高质量发展行动计划” 落地;发起 “高质量数据炼金工坊” 生态计划,通过供需对接、人才培养、场景验证,打造 “数据黄金” 产业闭环。
展望未来,随着《数据标注产业研究报告2025》《高质量数据集建设指南2025》等成果的发布,高质量数据集将成为驱动人工智能从通用大模型向行业深水区渗透的核心动能,推动数据要素从 “资源” 向 “资产”“资本” 的价值跃迁,为数字经济发展注入新活力。
本次研讨会不仅是一次政策解读与技术交流的盛会,更是一次产业协同的新起点。未来,天津市大数据协会将以此次会议为契机,加速构建 "标准统一、安全可控、开放共享" 的医疗健康数据生态,形成可复制的 "天津模式",为全国医疗数据治理提供实践样本,助力数字健康产业高质量发展。