提交需求
*
*

*
*
*
立即提交
点击”立即提交”,表明我理解并同意 《美创科技隐私条款》

logo

    产品与服务
    解决方案
    技术支持
    合作发展
    关于美创

    申请试用
      数据安全治理关键技术——数据水印
      发布时间:2024-09-09 阅读次数: 406 次
      1
      概述

      当前,数据作为最重要、最有价值的生产要素之一,已经成为组织机构最核心的资产。为激活数据要素价值,数据分发共享、委托处理的场景和范围日益增加,数据面临的泄露、窃取等风险也日趋严峻。数据水印作为一种保障数据安全的重要技术手段,可以在数据遭到泄露、窃取后,通过提取水印信息,证明数据的所有权,并定位泄露源头进而实现溯源追责。

      水印技术分为明水印和暗水印。明水印是将水印信息(员工姓名、员工号、时间、公司名称或logo等信息)覆盖在保护目标之上,可被肉眼观察到的水印,可应用于前端页面敏感数据的展示、桌面水印和打印水印等方面,起到警示和震慑作用。暗水印是将水印信息(数据所有者版权信息、分发单位名称、接收单位名称、分发时间、数据用途、员工姓名、员工号等信息)隐藏在载体数据中,不易被肉眼观察到的水印,可应用于结构化和非结构化数据的分发共享、票务防伪、隐蔽通信等场景,起到溯源追责、数据确权(版权保护)等作用。数据水印是一种暗水印。本文分析和探讨了数据水印的嵌入和溯源过程、常见技术方法、场景应用等方面。

      2
      基本概念

      2.1数据水印定义

      JR/T 0223—2021《金融数据安全 数据生命周期安全规范》中定义数据水印是指从原始环境向目标环境进行敏感数据交换时,通过一定的方法向数据中植入水印标记,从而使数据具有可识别分发者、分发对象、分发时间、分发目的等因素,同时保留目标环境业务所需的数据特性或内容的数据处理过程。

      定义中所指的‘水印标记’即上文提到的水印信息。植入水印信息的数据不仅可识别分发者(可证明数据所有权)、分发对象(可追溯数据泄露责任方)、分发时间、分发目的等因素,还具有可证明真伪(如票务防伪)等能力。此外,添加水印信息的数据不影响目标环境业务使用。

      2.2数据水印技术要求

      1)鲁棒性:含水印信息的数据遭到恶意攻击后,数据所有方仍可以完整提取出水印信息;

      2)完整性(高仿真、低污染、透明性):嵌入水印信息的过程中,无需修改源数据,保证源数据的完整性;

      3)安全性:在未知水印溯源参数的情况下,攻击者很难对嵌入的水印信息进行伪造和修改;

      4)可检测性:可通过水印溯源算法从嵌入水印信息的数据中提取水印;

      5)可逆性:嵌入水印信息的数据可通过专业工具去除水印,且不会对源数据造成破坏。

      2.3数据水印实现形式

      数据水印实现形式一般有如下几种:

      1)数据库水印,即原始数据库与添加水印后的数据库类型一致。数据水印系统支持的数据库类型一般有Oracle、MySQL、SQLServer等关系型数据库,hadoop、hive 等大数据和组件,达梦等国产数据库;

      2)非结构化数据水印或文件水印,即对文件、图像、视频等添加水印。数据水印系统支持的文件类型一般有txt、csv等;

      3)异构水印,包含异库水印(即原始数据库与添加水印后的数据库类型不一致,如Oracle到MySQL)、文件到数据库水印、数据库到文件水印。

      3
      主要标准归纳

      数据水印作为一种保障数据安全的重要技术手段,在各行业得到了普遍重视和应用,当前已在电信、金融、政务等行业和地方标准中被广泛提及。

      1)《电信网和互联网数据水印技术要求与测试方法》(报批稿)

      该标准适用于电信网和互联网数据的水印,给出了数据水印技术应用架构,总结了水印嵌入和水印溯源过程,并提出了数据水印的效果评估原则。

      2)《JRT 0223-2021 金融数据安全 数据生命周期安全规范》

      图片

      3)《DB11/T 2049-2022 政务大数据安全技术框架》(北京市地方标准)

      图片
      4
      数据水印技术应用

      4.1常见数据水印实现方法

      常见的数据水印实现方法如下表所示。

      图片
      • 以空格水印算法在文件中的应用为例,一般的实现方法如下:

      1)普通空格(U+0020),最常用的空格,在英文输入法(或中文输入法半角状态)下由键盘空格键直接输出;

      2)不间断空格(U+00A0,&nbsp),html里比较常见的空格,当存在多个空格时,可以禁止浏览器合并空格;

      3)零宽空格(U+200B),不占位,广泛适用于富文本编辑器中,用于格式阻断;

      4)全宽空格(U+3000),与一个汉字同宽;

      5)半宽空格(U+2002),常用于对齐的目的,如将三个汉字和四个汉字的两边对齐;

      6)发宽空格(U+200A),像头发一样窄,常用于Mac电脑中。

      借助以上空格,可以将二进制水印比特位1和0嵌入到文件数据中,如‘U+0020’代表1,‘U+200B’代表0,每隔一个字符或文字插入一个代表1或0的空格,完成水印的嵌入过程,如图1所示。

      图片

      图1 空格水印算法数据水印嵌入示意图

      • 以最低比特位水印算法在图像中的应用为例,如图2所示。基本步骤如下:

      1)将原始载体图像的像素值由十进制转换成二进制;

      2)用二进制水印比特位的1和0替换目标载体图像的最低比特位;

      3)将含有水印信息的二进制数据转换为十进制像素值,从而得到含水印信息的图像。

      图片

      图2 最低比特位水印算法数据水印嵌入示意图

      • 伪行水印在数据库中的应用如图3所示,基本步骤如下:

      1)人为在数据库表中添加若干行,每个字段按源数据形式填充内容;

      2)选择带有数字的字段(如身份证号码、电话号码、金额等)嵌入水印信息。

      图片

      图3 伪行水印技术构造伪行示意图

      • 伪列水印在数据库中的应用如图4所示,基本步骤如下:

      1)从属性列资源库中选择与原有属性列相关联的属性进行添加,如客户消费记录表包含‘账单编号’、‘消费时间’、‘消费金额’三个属性列,则选择‘支付方式’比选择‘工作单位’隐蔽性更好;

      2)向构造的伪列中嵌入水印信息。

      图片

      图4 伪列水印技术构造伪列示意图

      4.2应用场景

      场景一:对外分发共享场景中的数据确权和溯源追责

      • 安全风险

      数据对外分发共享包括向合作方、外包方等第三方分发共享以及向行业主管部门进行数据共享等场景。向第三方共享数据场景下,可能存在数据接收方转卖数据、开发利用数据进而获取利益等行为,严重损害组织机构利益,此种情况下如何证明对数据的所有权?此外,同一份数据往往涉及多个数据接收方,如果其中一方由于安全失责导致了数据泄露,如何进行溯源追责?

      • 解决方案

      为降低数据分发共享场景中的数据安全风险,可以在管理手段(合同协议、审批授权等)的基础上,根据数据的安全级别采用数据水印、脱敏等技术手段,降低数据泄露风险,保障数据的机密性。当发生数据泄露时,可借助数据水印技术实现数据确权和溯源追责。

      场景二:内部人员数据泄露场景中的溯源追责

      • 安全风险

      2023年数据泄露调查报告显示,人为因素是数据泄露的主要原因,且五分之一的数据泄露来自于内部员工。组织机构内部可能存在因员工的设备遭受木马、病毒攻击而导致数据无意泄露,或恶意员工将下载的数据文件上传至互联网、非法下载数据售卖给第三方等故意泄露行为。

      • 解决方案

      为降低组织机构数据泄露风险,可以在管理手段(数据安全意识培训、合同约束等)的基础上,采用权限管理、访问控制、下载文件时添加数据水印等技术手段,降低数据泄露风险,保障数据的机密性。当发生数据泄露时,可借助数据水印技术实现溯源追责。

      场景三:电子商务中的票务防伪

      • 安全风险

      随着互联网技术、现代交通的快速发展和智能手机的普及,电子商务已经触及我们日常生活的方方面面,并伴随着电子票据的大量流通和使用。非法牟利者可利用技术手段伪造电子票据,从而获得可观利益。

      • 解决方案

      为降低电子票据被伪造风险,可以采用数据水印技术在电子票据中嵌入防伪信息,票据验证方通过扫描电子票据是否含有防伪信息而证实其真伪。

      场景四:利用公共网络进行隐蔽通信

      • 安全风险

      当前,人们交流的方式主要为网络通信,如何利用公共网络安全传输信息是关键。发送方利用加密算法传递信息时,由于加密后的数据混乱无序,极易引起网络攻击者的注意。攻击者截获加密的信息后,如破解成功并进行篡改后再发送至接收方,可损害信息的机密性和完整性,严重危害通信双方的权益。利用数据水印的隐蔽性特点,发送方可将要传递的信息隐藏在音视频等多媒体载体中,从而实现隐蔽通信。

      • 解决方案

      利用数据水印技术的隐蔽性特点,发送方可将信息隐藏在音视频等多媒体中,从而实现隐蔽通信。

      场景五:网络数据分级标识及管理

      • 安全风险

      数据安全分类分级是开展数据差异化保护的基础。当前,很多企业的数据安全分类分级成果停留在文档清单的程度,很难结合数据的安全级别落地差异化的技术保护手段,数据在存储、传输、使用等处理活动中,仍然存在敏感数据泄露等风险。

      • 解决方案

      为落地不同安全级别数据的差异化技术保护手段,可将数据的安全级别(如电信行业划分为一级、二级、三级、四级共4个安全级别)作为水印信息,嵌入到源数据中,以实现对数据进行安全级别标识。当含有水印信息的数据通过网关等安全产品时,水印信息被提取,从而获得源数据的安全级别,进而根据安全级别触发差异化的防护手段,如允许非敏感数据(如前文所述的一级和二级数据)外发,拦截敏感数据(如前文所述的三级和四级数据)外发等。

      4.3利用数据水印技术的场景化解决方案

      数据水印应用包含水印嵌入和水印溯源两个过程。水印嵌入即利用水印添加算法将预处理(如加密、添加校验位等)的水印信息嵌入到数据库表数据、非结构化数据的过程。水印溯源即利用水印溯源算法从数据库表数据、非结构化数据提取预处理的水印信息,进而逆处理(如解密、验证校验位等)得到原始水印信息的过程。

      • 数据水印嵌入过程

      数据水印嵌入流程如图5所示。

      图片

      图5 数据水印嵌入示意图

      1)数据分发单位将数据库或非结构化数据接入数据水印系统,建议将敏感数据的下载过程也接入数据水印系统;

      2)创建水印信息:如数据水印的目的是数据确权,水印信息为数据所有单位的版权信息;如数据水印的目的是溯源追责,水印信息可包含分发单位名称、接收单位名称、分发时间、数据用途等信息;或者组合以上信息,同时用于数据确权和溯源追责,解决场景一的安全风险;内部人员下载敏感数据时添加的水印信息是员工姓名、员工号、下载时间、单位名称等信息,解决场景二的安全风险;票务防伪场景下添加的水印信息是防伪信息,解决场景三的安全风险;隐蔽通信场景下添加的水印信息是待传递的秘密信息,解决场景四的安全风险;网络数据分级标识及管理场景中添加的水印信息是数据的安全级别,以落地场景五的网络数据差异化技术保护。水印信息内容确定后,继续选择水印算法,文本水印一般基于不可见字符水印算法、空格水印算法,图像水印一般基于最低比特位水印算法,数据库水印一般采用伪行或伪列水印算法;

      3)创建水印任务:根据数据接收方的需求选择数据水印载体(如数据库同库水印、非结构化数据水印、异构水印等),并关联水印信息;

      4)运行水印任务:数据水印系统预处理水印信息,预处理源数据(如对数据库表的元组或属性列进行排序以防止排序攻击,同时通过遗传算法、萤火虫算法等确定添加水印的最佳位置),并通过水印嵌入算法,向数据载体添加水印。

      完成水印信息嵌入后,数据分发方将数据载体发送至数据接收方,此过程需同时采用身份鉴别、脱敏、传输加密、日志记录等技术手段。

      • 数据水印溯源过程

      数据水印溯源流程如图6至图9所示。

      1)数据所有单位或分发单位将疑似泄露数据接入数据水印系统。票务防伪场景下,电子票据的验证方将电子票据接入数据水印系统;隐蔽通信场景下,数据接收方将水印数据接入数据水印系统;网络数据分级标识及管理场景下,网关等安全产品调用或集成数据水印系统,以实现水印信息提取;

      2)水印溯源:数据水印系统识别数据载体的水印位置并提取预处理的水印信息,进而逆处理提取出水印信息。

      数据所有单位通过提取水印信息(数据所有单位版权信息)证明其对数据的所有权,数据分发单位通过提取水印信息(分发单位名称、接收单位名称、分发时间、数据用途等)定位数据泄露的责任主体,如图6所示,以上两方面可实现场景一下的数据确权和溯源追责。数据所有单位通过提取水印信息(员工姓名、员工号、下载时间、单位名称等)定位数据泄露的内部员工,如图6所示,从而实现场景二下的溯源追责。

      图片

      图6 对外分发共享和内部人员泄露场景下的数据水印溯源示意图

      电子票据的验证方通过提取水印信息(防伪信息)验证电子票据的真伪,如图7所示,从而实现场景三下的票务防伪。

      图片

      图7 票务防伪场景下的数据水印溯源示意图

      数据接收方通过提取水印信息获取秘密信息,如图8所示,从而实现场景四下的隐蔽通信。

      图片

      图8 隐蔽通信场景下的数据水印溯源示意图

      数据通过网关等安全产品时,通过提取水印信息,获得源数据的安全级别,进而根据安全级别触发差异化的防护手段,如图9所示,从而实现场景五下的网络数据标识及管理。

      图片

      图9 网络数据分级标识及管理场景下的数据水印溯源示意图
      5
      总结与思考

      当前,数据水印作为重要的数据安全技术手段和数据共享流通中的“追踪器”,将助力企业实现数据确权和溯源追责。

      但数据水印技术尚未成熟,仍存在诸多技术短板:面向多单位分发数据时便捷性差;水印算法抗攻击能力低,常见的数据库攻击有子集添加攻击、修改攻击、删除攻击、排序攻击、混合攻击等;针对短小文本或数据库表的元组数少的情况,如何在水印嵌入容量(增大嵌入容量可提高鲁棒性)和隐蔽性之间寻找平衡;各安全厂商数据水印算法各异,仅依赖算法保密性来保障安全性等等。诸多的技术短板亟需业内人士予以关注和技术攻关。

      转载自:数据安全共同体计划

      免费试用
      服务热线

      马上咨询

      400-811-3777

      回到顶部