2025中国互联网产业年会丨《中国互联网产业绿色算力发展倡议》正式发布
2025-02-07
美创用户专访 | 精细化管理:医疗行业数据分类分级的策略与实践
2025-01-10
容灾演练双月报|美创助力某特大型通信基础设施央企顺利完成多个核心系统异地容灾演练
2025-01-10
国家级|美创、徐医附院共建项目入选工信部《2024年网络安全技术应用典型案例拟支持项目名单》
2024-12-20
全球数据跨境流动合作倡议
2024-11-22
存储域
数据库加密 诺亚防勒索访问域
数据库防水坝 数据库防火墙 数据库安全审计 动态脱敏流动域
静态脱敏 数据水印 API安全 医疗防统方运维服务
数据库运维服务 中间件运维服务 国产信创改造服务 驻场运维服务 供数服务安全咨询服务
数据出境安全治理服务 数据安全能力评估认证服务 数据安全风险评估服务 数据安全治理咨询服务 数据分类分级咨询服务 个人信息风险评估服务 数据安全检查服务2024年12月,国家发改委等部门联合印发《关于促进数据产业高质量发展的指导意见》,首次提出“高质量数据集”,支持企业开发高质量数据集。同月,《关于促进数据标注产业高质量发展的实施意见》进一步指出加强重点行业领域数据标注,建设行业高质量数据集。2025年2月,国家数据局在北京召开高质量数据集建设工作启动会,提出积极推进落实“人工智能+”行动,推动高质量数据集建设,高效赋能行业发展。
数据(data)在广泛意义上而言,是对事实、活动等现象的记录。《辞海》(第七版)将数据定义为“描述事物的数字、字符、图形、声音等的表示形式”。按照《中华人民共和国数据安全法》中给出的定义,数据是指任何以电子或者其他方式对信息的记录。由此可见,数据本身可以有丰富的表现形式。
数据一直伴随着人类的发展而变迁。在古代,数据呈现出规则化汇聚的特征。例如,我国古代的黄册(全国户口名册)、天文观测记录均以特定规则进行登记造册,它们对人类社会和物理世界的性质、状态与相互关系进行记录和计算,都是宝贵的古代数据遗产。计算机发明后,数据与计算机编码产生重要联系。凡可被编码为一系列0和1组成的二进制记录,都是计算机可处理的数据。早期计算机的采集、存储、计算技术尚不成熟,只能有效处理行列结构明确的数据表,此时数据更多指代这类结构化数据。近十几年来,数据存储、传输和计算的性能不断突破,数据管理、数据处理技术快速迭代,网页、声音、图像等半结构化、非结构化数据也逐渐得到有效处理和利用。
GB/T 35295-2017《信息技术 大数据 术语》将数据集(data set)定义是“数据记录汇聚的数据形式。(注:它可以具有大数据的体量、速度、多样性和易变性特征。数据集的特征表征的是数据本身或静态数据,而数据的特征,当其在网络上传输时或暂时驻留于计算机存储器中以备读出或更新时,表征的是动态数据。)”
GB/T 36344-2018《信息技术 数据质量评价指标》将数据集定义是“具有一定主题,可以标识并可以被计算机化处理的数据集合。”
由此可以看出,数据集就是数据集合或者数据的汇聚形式。
在当今数字化时代,人工智能已成为推动各行业变革的核心力量,其背后的关键支撑则是高质量的数据集。高质量数据集不仅是AI模型训练、推理和验证的基础,更是人工智能赋能行业的核心驱动力。然而,目前业界对于高质量数据集的内涵还并未明确。
传统的数据质量管理聚焦在结构化数据的“六性”质量(规范性、完整性、准确性、一致性、时效性、可访问性),其本质是通过ETL流程优化实现单条记录的可靠性。在人工智能快速发展的背景下,数据质量在传统“六性”的基础上,还需进一步关注类别全面性、维度均衡性和内容安全性等指标,以满足人工智能模型训练和应用的需求,推动人工智能技术的健康、可持续发展。
根据调研,目前一些在研标准中也提到,可信数据集是来自特定和受信任来源,经可信的数据处理过程形成的高质量且满足预期用途使用的数据。
“可信”一词近年来主要出现在计算机领域的“可信计算”(Trusted Computing)概念中。可信计算主要强调的是计算机系统和其处理过程的可预测性、可验证性,保证全部计算过程的可测可控和不被干扰,从而保证计算结果与预期的一致性。
因此,可信数据集不仅要求数据集是高质量,同时更强调数据采集、存储、转换生命周期过程的可信(如合规性、一致性),从而实现数据来源合规、处理过程可信、内容高质量且安全。
总的来说,企业在构建“高质量”数据集时,需要关注以下内容:
一是从范围上需要涵盖结构化、半结构化和非结构化各类型数据。二是在质量评价上需考虑规范性、准确性、完整性、一致性、时效性、全面性、维度均衡性、内容安全性等指标。三是在建设运营中要关注数据集建设运营全生命周期的安全、隐私以及伦理合规问题。进而,打造在流程、质量、安全、内容上“高质量”的数据集。
针对高质量数据集的建设,我们提出“盘建研管运”五步法的管理方法。
◇ “盘”是需求盘点、资源盘点。理清内外部数据资源的来源、规模、质量、类别情况,明确应用与采集的格式、质量、内容要求。
◇ “建”是规范建设、流程建设、平台建设。提前制定数据集的质量、安全、运管要求,标准化工作流程,定制化工具平台。
◇ “研”是数据集研发。依托前序工作的需求、流程、规范等开展标准化的数据集研发工作,进行数据的清洗、标注、增强、质量评价等操作,生产数据集。
◇ “管”是数据集管理。洞察数据集规模、分布等构成,依托可追溯的数据集管理平台,维护数据集版本与上架资产。
◇ “运”是全链路运营。维护数据集评价指标,跟踪、维护、优化数据集的评价、使用、成本和价值。