全球数据跨境流动合作倡议
2024-11-22
世界互联网大会|美创数据库保险箱(DBSafe)发布!
2024-11-21
世界互联网大会|美创数据认知与分类分级系统(AICogniSort)重磅发布!
2024-11-21
美创案例|盐城公积金管理中心数据安全创新实践
2024-11-15
5=1!美创科技在中国数据安全软件市场主要厂商份额位列第五
2024-11-01
存储域
数据库加密 诺亚防勒索访问域
数据库防水坝 数据库防火墙 数据库安全审计 动态脱敏流动域
静态脱敏 数据水印 API安全 医疗防统方运维服务
数据库运维服务 中间件运维服务 国产信创改造服务 驻场运维服务 供数服务安全咨询服务
数据出境安全治理服务 数据安全能力评估认证服务 数据安全风险评估服务 数据安全治理咨询服务 数据分类分级咨询服务 个人信息风险评估服务 数据安全检查服务当前,数据作为最重要、最有价值的生产要素之一,已经成为组织机构最核心的资产。为激活数据要素价值,数据分发共享、委托处理的场景和范围日益增加,数据面临的泄露、窃取等风险也日趋严峻。数据水印作为一种保障数据安全的重要技术手段,可以在数据遭到泄露、窃取后,通过提取水印信息,证明数据的所有权,并定位泄露源头进而实现溯源追责。
水印技术分为明水印和暗水印。明水印是将水印信息(员工姓名、员工号、时间、公司名称或logo等信息)覆盖在保护目标之上,可被肉眼观察到的水印,可应用于前端页面敏感数据的展示、桌面水印和打印水印等方面,起到警示和震慑作用。暗水印是将水印信息(数据所有者版权信息、分发单位名称、接收单位名称、分发时间、数据用途、员工姓名、员工号等信息)隐藏在载体数据中,不易被肉眼观察到的水印,可应用于结构化和非结构化数据的分发共享、票务防伪、隐蔽通信等场景,起到溯源追责、数据确权(版权保护)等作用。数据水印是一种暗水印。本文分析和探讨了数据水印的嵌入和溯源过程、常见技术方法、场景应用等方面。
2.1数据水印定义
JR/T 0223—2021《金融数据安全 数据生命周期安全规范》中定义数据水印是指从原始环境向目标环境进行敏感数据交换时,通过一定的方法向数据中植入水印标记,从而使数据具有可识别分发者、分发对象、分发时间、分发目的等因素,同时保留目标环境业务所需的数据特性或内容的数据处理过程。
定义中所指的‘水印标记’即上文提到的水印信息。植入水印信息的数据不仅可识别分发者(可证明数据所有权)、分发对象(可追溯数据泄露责任方)、分发时间、分发目的等因素,还具有可证明真伪(如票务防伪)等能力。此外,添加水印信息的数据不影响目标环境业务使用。
2.2数据水印技术要求
1)鲁棒性:含水印信息的数据遭到恶意攻击后,数据所有方仍可以完整提取出水印信息;
2)完整性(高仿真、低污染、透明性):嵌入水印信息的过程中,无需修改源数据,保证源数据的完整性;
3)安全性:在未知水印溯源参数的情况下,攻击者很难对嵌入的水印信息进行伪造和修改;
4)可检测性:可通过水印溯源算法从嵌入水印信息的数据中提取水印;
5)可逆性:嵌入水印信息的数据可通过专业工具去除水印,且不会对源数据造成破坏。
2.3数据水印实现形式
数据水印实现形式一般有如下几种:
1)数据库水印,即原始数据库与添加水印后的数据库类型一致。数据水印系统支持的数据库类型一般有Oracle、MySQL、SQLServer等关系型数据库,hadoop、hive 等大数据和组件,达梦等国产数据库;
2)非结构化数据水印或文件水印,即对文件、图像、视频等添加水印。数据水印系统支持的文件类型一般有txt、csv等;
3)异构水印,包含异库水印(即原始数据库与添加水印后的数据库类型不一致,如Oracle到MySQL)、文件到数据库水印、数据库到文件水印。
数据水印作为一种保障数据安全的重要技术手段,在各行业得到了普遍重视和应用,当前已在电信、金融、政务等行业和地方标准中被广泛提及。
1)《电信网和互联网数据水印技术要求与测试方法》(报批稿)
该标准适用于电信网和互联网数据的水印,给出了数据水印技术应用架构,总结了水印嵌入和水印溯源过程,并提出了数据水印的效果评估原则。
2)《JRT 0223-2021 金融数据安全 数据生命周期安全规范》
3)《DB11/T 2049-2022 政务大数据安全技术框架》(北京市地方标准)
4.1常见数据水印实现方法
常见的数据水印实现方法如下表所示。
以空格水印算法在文件中的应用为例,一般的实现方法如下:
1)普通空格(U+0020),最常用的空格,在英文输入法(或中文输入法半角状态)下由键盘空格键直接输出;
2)不间断空格(U+00A0, ),html里比较常见的空格,当存在多个空格时,可以禁止浏览器合并空格;
3)零宽空格(U+200B),不占位,广泛适用于富文本编辑器中,用于格式阻断;
4)全宽空格(U+3000),与一个汉字同宽;
5)半宽空格(U+2002),常用于对齐的目的,如将三个汉字和四个汉字的两边对齐;
6)发宽空格(U+200A),像头发一样窄,常用于Mac电脑中。
借助以上空格,可以将二进制水印比特位1和0嵌入到文件数据中,如‘U+0020’代表1,‘U+200B’代表0,每隔一个字符或文字插入一个代表1或0的空格,完成水印的嵌入过程,如图1所示。
图1 空格水印算法数据水印嵌入示意图
以最低比特位水印算法在图像中的应用为例,如图2所示。基本步骤如下:
1)将原始载体图像的像素值由十进制转换成二进制;
2)用二进制水印比特位的1和0替换目标载体图像的最低比特位;
3)将含有水印信息的二进制数据转换为十进制像素值,从而得到含水印信息的图像。
图2 最低比特位水印算法数据水印嵌入示意图
伪行水印在数据库中的应用如图3所示,基本步骤如下:
1)人为在数据库表中添加若干行,每个字段按源数据形式填充内容;
2)选择带有数字的字段(如身份证号码、电话号码、金额等)嵌入水印信息。
图3 伪行水印技术构造伪行示意图
伪列水印在数据库中的应用如图4所示,基本步骤如下:
1)从属性列资源库中选择与原有属性列相关联的属性进行添加,如客户消费记录表包含‘账单编号’、‘消费时间’、‘消费金额’三个属性列,则选择‘支付方式’比选择‘工作单位’隐蔽性更好;
2)向构造的伪列中嵌入水印信息。
4.2应用场景
场景一:对外分发共享场景中的数据确权和溯源追责
安全风险
数据对外分发共享包括向合作方、外包方等第三方分发共享以及向行业主管部门进行数据共享等场景。向第三方共享数据场景下,可能存在数据接收方转卖数据、开发利用数据进而获取利益等行为,严重损害组织机构利益,此种情况下如何证明对数据的所有权?此外,同一份数据往往涉及多个数据接收方,如果其中一方由于安全失责导致了数据泄露,如何进行溯源追责?
解决方案
为降低数据分发共享场景中的数据安全风险,可以在管理手段(合同协议、审批授权等)的基础上,根据数据的安全级别采用数据水印、脱敏等技术手段,降低数据泄露风险,保障数据的机密性。当发生数据泄露时,可借助数据水印技术实现数据确权和溯源追责。
场景二:内部人员数据泄露场景中的溯源追责
安全风险
2023年数据泄露调查报告显示,人为因素是数据泄露的主要原因,且五分之一的数据泄露来自于内部员工。组织机构内部可能存在因员工的设备遭受木马、病毒攻击而导致数据无意泄露,或恶意员工将下载的数据文件上传至互联网、非法下载数据售卖给第三方等故意泄露行为。
解决方案
为降低组织机构数据泄露风险,可以在管理手段(数据安全意识培训、合同约束等)的基础上,采用权限管理、访问控制、下载文件时添加数据水印等技术手段,降低数据泄露风险,保障数据的机密性。当发生数据泄露时,可借助数据水印技术实现溯源追责。
场景三:电子商务中的票务防伪
安全风险
随着互联网技术、现代交通的快速发展和智能手机的普及,电子商务已经触及我们日常生活的方方面面,并伴随着电子票据的大量流通和使用。非法牟利者可利用技术手段伪造电子票据,从而获得可观利益。
解决方案
为降低电子票据被伪造风险,可以采用数据水印技术在电子票据中嵌入防伪信息,票据验证方通过扫描电子票据是否含有防伪信息而证实其真伪。
场景四:利用公共网络进行隐蔽通信
安全风险
当前,人们交流的方式主要为网络通信,如何利用公共网络安全传输信息是关键。发送方利用加密算法传递信息时,由于加密后的数据混乱无序,极易引起网络攻击者的注意。攻击者截获加密的信息后,如破解成功并进行篡改后再发送至接收方,可损害信息的机密性和完整性,严重危害通信双方的权益。利用数据水印的隐蔽性特点,发送方可将要传递的信息隐藏在音视频等多媒体载体中,从而实现隐蔽通信。
解决方案
利用数据水印技术的隐蔽性特点,发送方可将信息隐藏在音视频等多媒体中,从而实现隐蔽通信。
场景五:网络数据分级标识及管理
安全风险
数据安全分类分级是开展数据差异化保护的基础。当前,很多企业的数据安全分类分级成果停留在文档清单的程度,很难结合数据的安全级别落地差异化的技术保护手段,数据在存储、传输、使用等处理活动中,仍然存在敏感数据泄露等风险。
解决方案
为落地不同安全级别数据的差异化技术保护手段,可将数据的安全级别(如电信行业划分为一级、二级、三级、四级共4个安全级别)作为水印信息,嵌入到源数据中,以实现对数据进行安全级别标识。当含有水印信息的数据通过网关等安全产品时,水印信息被提取,从而获得源数据的安全级别,进而根据安全级别触发差异化的防护手段,如允许非敏感数据(如前文所述的一级和二级数据)外发,拦截敏感数据(如前文所述的三级和四级数据)外发等。
4.3利用数据水印技术的场景化解决方案
数据水印应用包含水印嵌入和水印溯源两个过程。水印嵌入即利用水印添加算法将预处理(如加密、添加校验位等)的水印信息嵌入到数据库表数据、非结构化数据的过程。水印溯源即利用水印溯源算法从数据库表数据、非结构化数据提取预处理的水印信息,进而逆处理(如解密、验证校验位等)得到原始水印信息的过程。
数据水印嵌入过程
数据水印嵌入流程如图5所示。
图5 数据水印嵌入示意图
1)数据分发单位将数据库或非结构化数据接入数据水印系统,建议将敏感数据的下载过程也接入数据水印系统;
2)创建水印信息:如数据水印的目的是数据确权,水印信息为数据所有单位的版权信息;如数据水印的目的是溯源追责,水印信息可包含分发单位名称、接收单位名称、分发时间、数据用途等信息;或者组合以上信息,同时用于数据确权和溯源追责,解决场景一的安全风险;内部人员下载敏感数据时添加的水印信息是员工姓名、员工号、下载时间、单位名称等信息,解决场景二的安全风险;票务防伪场景下添加的水印信息是防伪信息,解决场景三的安全风险;隐蔽通信场景下添加的水印信息是待传递的秘密信息,解决场景四的安全风险;网络数据分级标识及管理场景中添加的水印信息是数据的安全级别,以落地场景五的网络数据差异化技术保护。水印信息内容确定后,继续选择水印算法,文本水印一般基于不可见字符水印算法、空格水印算法,图像水印一般基于最低比特位水印算法,数据库水印一般采用伪行或伪列水印算法;
3)创建水印任务:根据数据接收方的需求选择数据水印载体(如数据库同库水印、非结构化数据水印、异构水印等),并关联水印信息;
4)运行水印任务:数据水印系统预处理水印信息,预处理源数据(如对数据库表的元组或属性列进行排序以防止排序攻击,同时通过遗传算法、萤火虫算法等确定添加水印的最佳位置),并通过水印嵌入算法,向数据载体添加水印。
完成水印信息嵌入后,数据分发方将数据载体发送至数据接收方,此过程需同时采用身份鉴别、脱敏、传输加密、日志记录等技术手段。
数据水印溯源过程
数据水印溯源流程如图6至图9所示。
1)数据所有单位或分发单位将疑似泄露数据接入数据水印系统。票务防伪场景下,电子票据的验证方将电子票据接入数据水印系统;隐蔽通信场景下,数据接收方将水印数据接入数据水印系统;网络数据分级标识及管理场景下,网关等安全产品调用或集成数据水印系统,以实现水印信息提取;
2)水印溯源:数据水印系统识别数据载体的水印位置并提取预处理的水印信息,进而逆处理提取出水印信息。
数据所有单位通过提取水印信息(数据所有单位版权信息)证明其对数据的所有权,数据分发单位通过提取水印信息(分发单位名称、接收单位名称、分发时间、数据用途等)定位数据泄露的责任主体,如图6所示,以上两方面可实现场景一下的数据确权和溯源追责。数据所有单位通过提取水印信息(员工姓名、员工号、下载时间、单位名称等)定位数据泄露的内部员工,如图6所示,从而实现场景二下的溯源追责。
图6 对外分发共享和内部人员泄露场景下的数据水印溯源示意图
电子票据的验证方通过提取水印信息(防伪信息)验证电子票据的真伪,如图7所示,从而实现场景三下的票务防伪。
图7 票务防伪场景下的数据水印溯源示意图
数据接收方通过提取水印信息获取秘密信息,如图8所示,从而实现场景四下的隐蔽通信。
图8 隐蔽通信场景下的数据水印溯源示意图
数据通过网关等安全产品时,通过提取水印信息,获得源数据的安全级别,进而根据安全级别触发差异化的防护手段,如图9所示,从而实现场景五下的网络数据标识及管理。
当前,数据水印作为重要的数据安全技术手段和数据共享流通中的“追踪器”,将助力企业实现数据确权和溯源追责。
但数据水印技术尚未成熟,仍存在诸多技术短板:面向多单位分发数据时便捷性差;水印算法抗攻击能力低,常见的数据库攻击有子集添加攻击、修改攻击、删除攻击、排序攻击、混合攻击等;针对短小文本或数据库表的元组数少的情况,如何在水印嵌入容量(增大嵌入容量可提高鲁棒性)和隐蔽性之间寻找平衡;各安全厂商数据水印算法各异,仅依赖算法保密性来保障安全性等等。诸多的技术短板亟需业内人士予以关注和技术攻关。
转载自:数据安全共同体计划