数据安全治理关键技术—





首页 产品与服务 解决方案 客户案例 技术支持 合作发展 关于美创 用户退出 合作商登录 用户登录 申请试用

行业解决方案政府解决方案金融解决方案医疗解决方案教育解决方案能源解决方案物流交通解决方案

售后服务文档中心年度培训

渠道政策申请成为合作伙伴渠道专区

公司动态行业资讯安全研究

热门阅读

全球数据跨境流动合作倡议

2024-11-22

世界互联网大会|美创数据库保险箱（DBSafe）发布！

2024-11-21

世界互联网大会｜美创数据认知与分类分级系统（AICogniSort）重磅发布！

2024-11-21

美创案例｜盐城公积金管理中心数据安全创新实践

2024-11-15

5=1！美创科技在中国数据安全软件市场主要厂商份额位列第五

2024-11-01

《数字化转型背景下多切面构建数据安全实践和分析》

2024-11-25

全球数据跨境流动合作倡议

2024-11-22

解读|促进和规范数据跨境流动的重要规定

2024-11-21

海南自由贸易港数据跨境规则创新路径探究

2024-11-21

构建高效安全的数据跨境流通机制

2024-11-20

数据安全治理关键技术——数据水印

发布时间：2024-09-09 阅读次数： 1324 次

概述

当前，数据作为最重要、最有价值的生产要素之一，已经成为组织机构最核心的资产。为激活数据要素价值，数据分发共享、委托处理的场景和范围日益增加，数据面临的泄露、窃取等风险也日趋严峻。数据水印作为一种保障数据安全的重要技术手段，可以在数据遭到泄露、窃取后，通过提取水印信息，证明数据的所有权，并定位泄露源头进而实现溯源追责。

水印技术分为明水印和暗水印。明水印是将水印信息（员工姓名、员工号、时间、公司名称或logo等信息）覆盖在保护目标之上，可被肉眼观察到的水印，可应用于前端页面敏感数据的展示、桌面水印和打印水印等方面，起到警示和震慑作用。暗水印是将水印信息（数据所有者版权信息、分发单位名称、接收单位名称、分发时间、数据用途、员工姓名、员工号等信息）隐藏在载体数据中，不易被肉眼观察到的水印，可应用于结构化和非结构化数据的分发共享、票务防伪、隐蔽通信等场景，起到溯源追责、数据确权（版权保护）等作用。数据水印是一种暗水印。本文分析和探讨了数据水印的嵌入和溯源过程、常见技术方法、场景应用等方面。

基本概念

2.1数据水印定义

JR/T 0223—2021《金融数据安全数据生命周期安全规范》中定义数据水印是指从原始环境向目标环境进行敏感数据交换时，通过一定的方法向数据中植入水印标记，从而使数据具有可识别分发者、分发对象、分发时间、分发目的等因素，同时保留目标环境业务所需的数据特性或内容的数据处理过程。

定义中所指的‘水印标记’即上文提到的水印信息。植入水印信息的数据不仅可识别分发者（可证明数据所有权）、分发对象（可追溯数据泄露责任方）、分发时间、分发目的等因素，还具有可证明真伪（如票务防伪）等能力。此外，添加水印信息的数据不影响目标环境业务使用。

2.2数据水印技术要求

1)鲁棒性：含水印信息的数据遭到恶意攻击后，数据所有方仍可以完整提取出水印信息；

2)完整性（高仿真、低污染、透明性）：嵌入水印信息的过程中，无需修改源数据，保证源数据的完整性；

3)安全性：在未知水印溯源参数的情况下，攻击者很难对嵌入的水印信息进行伪造和修改；

4)可检测性：可通过水印溯源算法从嵌入水印信息的数据中提取水印；

5)可逆性：嵌入水印信息的数据可通过专业工具去除水印，且不会对源数据造成破坏。

2.3数据水印实现形式

数据水印实现形式一般有如下几种：

1)数据库水印，即原始数据库与添加水印后的数据库类型一致。数据水印系统支持的数据库类型一般有Oracle、MySQL、SQLServer等关系型数据库，hadoop、hive 等大数据和组件，达梦等国产数据库；

2)非结构化数据水印或文件水印，即对文件、图像、视频等添加水印。数据水印系统支持的文件类型一般有txt、csv等；

3)异构水印，包含异库水印（即原始数据库与添加水印后的数据库类型不一致，如Oracle到MySQL）、文件到数据库水印、数据库到文件水印。

主要标准归纳

数据水印作为一种保障数据安全的重要技术手段，在各行业得到了普遍重视和应用，当前已在电信、金融、政务等行业和地方标准中被广泛提及。

1)《电信网和互联网数据水印技术要求与测试方法》（报批稿）

该标准适用于电信网和互联网数据的水印，给出了数据水印技术应用架构，总结了水印嵌入和水印溯源过程，并提出了数据水印的效果评估原则。

2)《JRT 0223-2021 金融数据安全数据生命周期安全规范》

3)《DB11/T 2049-2022 政务大数据安全技术框架》（北京市地方标准）

数据水印技术应用

4.1常见数据水印实现方法

常见的数据水印实现方法如下表所示。

以空格水印算法在文件中的应用为例，一般的实现方法如下：

1)普通空格（U+0020），最常用的空格，在英文输入法（或中文输入法半角状态）下由键盘空格键直接输出；

2)不间断空格（U+00A0，&nbsp），html里比较常见的空格，当存在多个空格时，可以禁止浏览器合并空格；

3)零宽空格（U+200B），不占位，广泛适用于富文本编辑器中，用于格式阻断；

4)全宽空格（U+3000），与一个汉字同宽；

5)半宽空格（U+2002），常用于对齐的目的，如将三个汉字和四个汉字的两边对齐；

6)发宽空格（U+200A），像头发一样窄，常用于Mac电脑中。

借助以上空格，可以将二进制水印比特位1和0嵌入到文件数据中，如‘U+0020’代表1，‘U+200B’代表0，每隔一个字符或文字插入一个代表1或0的空格，完成水印的嵌入过程，如图1所示。

图1 空格水印算法数据水印嵌入示意图

以最低比特位水印算法在图像中的应用为例，如图2所示。基本步骤如下：

1)将原始载体图像的像素值由十进制转换成二进制；

2)用二进制水印比特位的1和0替换目标载体图像的最低比特位；

3)将含有水印信息的二进制数据转换为十进制像素值，从而得到含水印信息的图像。

图2 最低比特位水印算法数据水印嵌入示意图

伪行水印在数据库中的应用如图3所示，基本步骤如下：

1)人为在数据库表中添加若干行，每个字段按源数据形式填充内容；

2)选择带有数字的字段（如身份证号码、电话号码、金额等）嵌入水印信息。

图3 伪行水印技术构造伪行示意图

伪列水印在数据库中的应用如图4所示，基本步骤如下：

1)从属性列资源库中选择与原有属性列相关联的属性进行添加，如客户消费记录表包含‘账单编号’、‘消费时间’、‘消费金额’三个属性列，则选择‘支付方式’比选择‘工作单位’隐蔽性更好；

2)向构造的伪列中嵌入水印信息。

图4 伪列水印技术构造伪列示意图

4.2应用场景

场景一：对外分发共享场景中的数据确权和溯源追责

安全风险

数据对外分发共享包括向合作方、外包方等第三方分发共享以及向行业主管部门进行数据共享等场景。向第三方共享数据场景下，可能存在数据接收方转卖数据、开发利用数据进而获取利益等行为，严重损害组织机构利益，此种情况下如何证明对数据的所有权？此外，同一份数据往往涉及多个数据接收方，如果其中一方由于安全失责导致了数据泄露，如何进行溯源追责？

解决方案

为降低数据分发共享场景中的数据安全风险，可以在管理手段（合同协议、审批授权等）的基础上，根据数据的安全级别采用数据水印、脱敏等技术手段，降低数据泄露风险，保障数据的机密性。当发生数据泄露时，可借助数据水印技术实现数据确权和溯源追责。

场景二：内部人员数据泄露场景中的溯源追责

安全风险

2023年数据泄露调查报告显示，人为因素是数据泄露的主要原因，且五分之一的数据泄露来自于内部员工。组织机构内部可能存在因员工的设备遭受木马、病毒攻击而导致数据无意泄露，或恶意员工将下载的数据文件上传至互联网、非法下载数据售卖给第三方等故意泄露行为。

解决方案

为降低组织机构数据泄露风险，可以在管理手段（数据安全意识培训、合同约束等）的基础上，采用权限管理、访问控制、下载文件时添加数据水印等技术手段，降低数据泄露风险，保障数据的机密性。当发生数据泄露时，可借助数据水印技术实现溯源追责。

场景三：电子商务中的票务防伪

安全风险

随着互联网技术、现代交通的快速发展和智能手机的普及，电子商务已经触及我们日常生活的方方面面，并伴随着电子票据的大量流通和使用。非法牟利者可利用技术手段伪造电子票据，从而获得可观利益。

解决方案

为降低电子票据被伪造风险，可以采用数据水印技术在电子票据中嵌入防伪信息，票据验证方通过扫描电子票据是否含有防伪信息而证实其真伪。

场景四：利用公共网络进行隐蔽通信

安全风险

当前，人们交流的方式主要为网络通信，如何利用公共网络安全传输信息是关键。发送方利用加密算法传递信息时，由于加密后的数据混乱无序，极易引起网络攻击者的注意。攻击者截获加密的信息后，如破解成功并进行篡改后再发送至接收方，可损害信息的机密性和完整性，严重危害通信双方的权益。利用数据水印的隐蔽性特点，发送方可将要传递的信息隐藏在音视频等多媒体载体中，从而实现隐蔽通信。

解决方案

利用数据水印技术的隐蔽性特点，发送方可将信息隐藏在音视频等多媒体中，从而实现隐蔽通信。

场景五：网络数据分级标识及管理

安全风险

数据安全分类分级是开展数据差异化保护的基础。当前，很多企业的数据安全分类分级成果停留在文档清单的程度，很难结合数据的安全级别落地差异化的技术保护手段，数据在存储、传输、使用等处理活动中，仍然存在敏感数据泄露等风险。

解决方案

为落地不同安全级别数据的差异化技术保护手段，可将数据的安全级别（如电信行业划分为一级、二级、三级、四级共4个安全级别）作为水印信息，嵌入到源数据中，以实现对数据进行安全级别标识。当含有水印信息的数据通过网关等安全产品时，水印信息被提取，从而获得源数据的安全级别，进而根据安全级别触发差异化的防护手段，如允许非敏感数据（如前文所述的一级和二级数据）外发，拦截敏感数据（如前文所述的三级和四级数据）外发等。

4.3利用数据水印技术的场景化解决方案

数据水印应用包含水印嵌入和水印溯源两个过程。水印嵌入即利用水印添加算法将预处理（如加密、添加校验位等）的水印信息嵌入到数据库表数据、非结构化数据的过程。水印溯源即利用水印溯源算法从数据库表数据、非结构化数据提取预处理的水印信息，进而逆处理（如解密、验证校验位等）得到原始水印信息的过程。

数据水印嵌入过程

数据水印嵌入流程如图5所示。

图5 数据水印嵌入示意图

1)数据分发单位将数据库或非结构化数据接入数据水印系统，建议将敏感数据的下载过程也接入数据水印系统；

2)创建水印信息：如数据水印的目的是数据确权，水印信息为数据所有单位的版权信息；如数据水印的目的是溯源追责，水印信息可包含分发单位名称、接收单位名称、分发时间、数据用途等信息；或者组合以上信息，同时用于数据确权和溯源追责，解决场景一的安全风险；内部人员下载敏感数据时添加的水印信息是员工姓名、员工号、下载时间、单位名称等信息，解决场景二的安全风险；票务防伪场景下添加的水印信息是防伪信息，解决场景三的安全风险；隐蔽通信场景下添加的水印信息是待传递的秘密信息，解决场景四的安全风险；网络数据分级标识及管理场景中添加的水印信息是数据的安全级别，以落地场景五的网络数据差异化技术保护。水印信息内容确定后，继续选择水印算法，文本水印一般基于不可见字符水印算法、空格水印算法，图像水印一般基于最低比特位水印算法，数据库水印一般采用伪行或伪列水印算法；

3)创建水印任务：根据数据接收方的需求选择数据水印载体（如数据库同库水印、非结构化数据水印、异构水印等），并关联水印信息；

4)运行水印任务：数据水印系统预处理水印信息，预处理源数据（如对数据库表的元组或属性列进行排序以防止排序攻击，同时通过遗传算法、萤火虫算法等确定添加水印的最佳位置），并通过水印嵌入算法，向数据载体添加水印。

完成水印信息嵌入后，数据分发方将数据载体发送至数据接收方，此过程需同时采用身份鉴别、脱敏、传输加密、日志记录等技术手段。

数据水印溯源过程

数据水印溯源流程如图6至图9所示。

1)数据所有单位或分发单位将疑似泄露数据接入数据水印系统。票务防伪场景下，电子票据的验证方将电子票据接入数据水印系统；隐蔽通信场景下，数据接收方将水印数据接入数据水印系统；网络数据分级标识及管理场景下，网关等安全产品调用或集成数据水印系统，以实现水印信息提取；

2)水印溯源：数据水印系统识别数据载体的水印位置并提取预处理的水印信息，进而逆处理提取出水印信息。

数据所有单位通过提取水印信息（数据所有单位版权信息）证明其对数据的所有权，数据分发单位通过提取水印信息（分发单位名称、接收单位名称、分发时间、数据用途等）定位数据泄露的责任主体，如图6所示，以上两方面可实现场景一下的数据确权和溯源追责。数据所有单位通过提取水印信息（员工姓名、员工号、下载时间、单位名称等）定位数据泄露的内部员工，如图6所示，从而实现场景二下的溯源追责。

图6 对外分发共享和内部人员泄露场景下的数据水印溯源示意图

电子票据的验证方通过提取水印信息（防伪信息）验证电子票据的真伪，如图7所示，从而实现场景三下的票务防伪。

图7 票务防伪场景下的数据水印溯源示意图

数据接收方通过提取水印信息获取秘密信息，如图8所示，从而实现场景四下的隐蔽通信。

图8 隐蔽通信场景下的数据水印溯源示意图

数据通过网关等安全产品时，通过提取水印信息，获得源数据的安全级别，进而根据安全级别触发差异化的防护手段，如图9所示，从而实现场景五下的网络数据标识及管理。

图9 网络数据分级标识及管理场景下的数据水印溯源示意图

总结与思考

当前，数据水印作为重要的数据安全技术手段和数据共享流通中的“追踪器”，将助力企业实现数据确权和溯源追责。

但数据水印技术尚未成熟，仍存在诸多技术短板：面向多单位分发数据时便捷性差；水印算法抗攻击能力低，常见的数据库攻击有子集添加攻击、修改攻击、删除攻击、排序攻击、混合攻击等；针对短小文本或数据库表的元组数少的情况，如何在水印嵌入容量（增大嵌入容量可提高鲁棒性）和隐蔽性之间寻找平衡；各安全厂商数据水印算法各异，仅依赖算法保密性来保障安全性等等。诸多的技术短板亟需业内人士予以关注和技术攻关。

转载自：数据安全共同体计划

上一条：以区块链技术维护国家数据安全
下一条：数据安全唠唠嗑 | 谁在用、用什么、怎么用？