1. 数据中台建设目标
数据中台建设的目标是实现数据全面资产化,建立数据质量管理制度和规范,并构建数据资产高效输出和循环落地机制,形成数据资产管理闭环。具体目标包括:
数据全面资产化:将企业所有数据纳入数据中台进行统一管理,包括结构化数据、半结构化数据和非结构化数据,并对数据进行分类、分级、标签化等处理,方便数据查找和使用。
数据质量管理制度化:建立数据质量管理制度和规范,对数据质量进行全生命周期管理,包括数据采集、数据存储、数据处理、数据分析等环节,保障数据质量,提升数据可靠性。
数据资产高效输出和循环落地:构建数据资产高效输出和循环落地机制,将数据资产应用于实际业务场景,并根据业务反馈不断优化数据产品和服务,形成数据资产管理闭环。
2. 实施路径
实施路径建议从数据治理入手,逐步构建数据资产平台,实现数据的统一管理和服务。具体步骤包括:
数据整合与治理:对企业内部各类数据源进行整合,包括关系型数据库、非关系型数据库、日志文件、第三方数据等。同时,对数据进行清洗、去重、标准化等治理工作,确保数据的质量与一致性。
数据资产管理:在数据整合与治理的基础上,建立数据资产管理体系,包括数据分类、数据标签、数据血缘、数据权限等。这有助于企业更好地了解数据资产,提高数据利用效率。
数据服务与开放:数据中台需要提供丰富的数据服务接口,如API、SDK等,以便前台业务能够方便地获取所需数据。同时,需要建立数据开放机制,鼓励内部员工和外部合作伙伴基于数据进行创新。
技术选型与架构:在构建数据中台时,需要选择合适的技术栈和架构。例如,可以采用分布式存储、流处理、机器学习等技术,以提高数据处理能力和智能化水平。同时,需要设计合理的架构,确保系统的可扩展性、高可用性和安全性。
组织与文化:数据中台的建设不仅涉及技术问题,还涉及组织和文化问题。需要建立跨部门的数据治理团队,明确数据责任与义务。同时,需要培养数据驱动的文化氛围,鼓励员工基于数据进行决策和创新。
3. 技术架构
技术架构方面,数据资产平台采用“业务中台+数据资产平台”的双中台架构,通过技术中台支撑业务中台和数据资产平台的快速建设。
4. 数据脱敏的应用场景
数据脱敏分为静态脱敏和动态脱敏两类,两者因技术路线和实现机制不同,分部应用在不同的场景。具体应用场景包括:
静态脱敏应用场景:
开发测试:在开发测试环境中,需要使用真实数据进行测试和调试,但这些数据可能包含敏感信息。通过数据脱敏技术,可以将这些敏感信息替换为无意义的值,保护用户隐私和企业机密。
数据共享:当企业需要将数据共享给合作伙伴或第三方机构时,需要保护数据的隐私和安全。通过数据脱敏技术,可以将敏感信息脱敏,确保只有必要的数据被共享,并且这些数据不会被用于非法用途。
科学研究:在科学研究中,需要对数据进行统计分析,但这些数据可能包含敏感信息。通过数据脱敏技术,可以将敏感信息脱敏,确保数据的隐私和安全,同时保留数据的分析价值。
动态脱敏应用场景:
业务脱敏:业务脱敏一般应用在业务用户访问应用系统敏感数据之间,进行数据脱敏的保护,同时需要考虑用户身份和权限。
运维脱敏:运维人员在运维工作中直连生产数据库,需要对生产环境中的敏感数据进行透明、实时脱敏。
数据交换脱敏:在数据交换过程中,需要对敏感数据进行实时脱敏,确保数据在传输过程中的安全。
5. 数据脱敏的实现流程
确定受限制用户角色:敏感数据的可见范围,即是针对不同用户预设的。系统管理员,具有最高权限,任何时刻对任何表的任何字段都可见。
识别和梳理具体业务场景中需要脱敏展示的字段:明确哪些字段需要进行脱敏处理。
动态数据脱敏方案:通常采取动态数据脱敏方案进行脱敏处理,在查询语句执行过程中,根据生效条件(通常针对当前用户角色的判断)是否满足,实现实时的脱敏处理。确定脱敏列需要绑定的脱敏函数,完成对脱敏数据的存储和获取工作。
静态数据脱敏处理步骤:
数据选择/策略配置:选择待脱敏的数据库及表,配置脱敏策略及脱敏算法,生成脱敏任务。
执行脱敏处理:对不同类型数据进行处理,将数据中的敏感信息进行删除或隐藏。
数据导出:将脱敏后的数据按用户需求,装载至不同环境中,包括文件至文件,文件至数据库,数据库至数据库,数据库至文件等多种装载方式。
6. 数据脱敏的方法
替换法:将敏感数据替换为固定值或随机值。
掩码法:对敏感信息的部分内容进行遮蔽,使其无法被查看。
加密法:利用复杂的数学算法对敏感数据进行编码,使其在未授权情况下无法解读。
数据扰动:基于统计学原理,通过在数据集中引入微小、随机的变化,使个体数据点难以被识别,但保持整体数据分布、相关性和趋势不变。
数据分割:将敏感数据拆分为多个部分,并分别存储在不同的物理或逻辑位置,通过分散存储降低单一攻击导致数据泄露的风险。
伪数据生成:创建与真实数据在统计特性上高度相似但无实际对应关系的假数据。
令牌化:将敏感数据替换为唯一的令牌,令牌与原始数据一一对应,但无法从令牌反推出原始数据。
格式保留脱敏:一种特殊的加密方式,其输出的密文格式仍然与明文相同。
可逆脱敏:在脱敏过程中保留了一种机制,使得脱敏后的数据可以通过特定算法恢复为原始数据。
7. 数据脱敏的技术细节
防逆向破解原则:无论采用哪种脱敏方法,都不能够通过破解方法获取到原始敏感数据。
表征原始数据原则:脱敏后数据要保持一定的真实性,以便数据能够应用开发、测试、分析的环境。
引用完整性原则:经过脱敏后数据要保持引用完整性,例如对银行卡号进行脱敏处理所有引用了银行卡号信息的实体,经过脱敏处理后要能够关联到一起。
防数据推理原则:数据脱敏不需要将所有的数据进行脱敏处理,只处理被定义为敏感数据内容。但需要注意的是有些非敏感数据能够被用来重新生成敏感数据或者能够回溯到敏感数据,这些非敏感数据同样需要进行脱敏。
