数字化的关键:数据治理

数据治理,大数据治理,是实现企业从信息化到数字化转型的关键。通过对象数字化、过程数字化、规则数字化,产生一系列数据服务,创造出商业和社会价值

  • 对象数字化:目标是建立对象本体在数字世界的映射。这种映射不是传统意义上基于流程要求的少量数据的管理,而是管理某个对象的全量数据
  • 过程数字化:实现业务活动线上化,并记录业务活动的执行或操作轨迹,一般通过观测数据来实现轨迹记录
  • 规则数字化:是把复杂场景下的复杂规则用数字化手段进行管理
    • 良好的规则数字化管理,应该能实现业务规则与IT应用解耦,所有关键业务规则数据要实现可配置,能够根据业务的变化灵活调整

初级目标

  • 传统的企业中的信息化系统存在多个,数据孤岛、数据重复现象非常严重
  • 设立数据管理专业组织,建立数据管理框架,发布数据管理政策,任命数据Owner
  • 实现企业层面的统一信息架构与标准、唯一可信的数据源、有效的数据质量度量改进机制

高级目标

建设数据底座,汇聚企业全域数据并对数据进行联接,通过数据服务、数据地图、数据安全防护与隐私保护,实现数据随需共享、敏捷自助、安全透明的目标,实现如下的数据价值:

  • 业务可视,能够快速、准确决策:通过数据汇聚,实现业务状态透明可视,提供基于“事实”的决策支持依据
  • 人工智能,实现业务自动化:通过业务规则数字化、算法化,嵌入业务流,逐步替代人工判断
  • 数据创新,成为差异化竞争优势:基于数据的用户洞察,发现新的市场机会点

公司级的数据治理政策

《华为数据之道》的数据治理实践非常具有参考性,明确数据治理最基本的原则,包括信息架构、数据产生、数据应用及数据质量的职责和分工等。

  • 信息架构管理原则
    • 建立企业级信息架构,统一数据语言
    • 所有变革项目须遵从数据管控要求
    • 应用系统设计和开发应遵从企业级信息架构。关键应用系统必须通过应用系统认证
  • 数据产生管理原则
    • 数据规划对齐业务战略,业务战略规划必须包含关键数据举措及其路标规划
    • 公司数据Owner拥有公司数据管理的最高决策权,各级数据Owner承担数据工作路标、信息架构、数据责任机制和数据质量的管理责任
    • 关键数据须定义单一数据源,一点录入,多点调用。数据质量问题应在源头解决
    • 谁产生数据,谁对数据质量负责,且数据质量要达到关键使用部门的要求
  • 数据应用管理原则
    • 数据应在满足信息安全的前提下充分共享,数据产生部门不得拒绝跨领域的、合理的数据共享需求
    • 信息披露、数据安全管理、数据保管和个人数据隐私保护等必须遵守法律法规和道德规范的要求
  • 数据问责与奖惩管理原则
    • 各数据Owner应建立数据问题回溯和奖惩机制。对不遵从信息架构或存在严重数据质量问题的责任人进行问责

信息架构管理政策

信息架构是公司统一的数据语言,是业务流打通、消除信息孤岛和提升业务流集成效率的关键要素。

  • 管理信息架构的角色与职责
    • 公司数据Owner负责批准企业级信息架构,裁决重大信息架构问题和争议
    • 各数据Owner负责其所辖数据的信息架构建设和维护,承接及落实公司的数据规划要求
    • 公司的数据管理专业组织作为公司数据工作的支撑组织,负责组织信息架构的建设、维护、落地及遵从管控,负责协调跨领域的信息架构冲突
    • 数据管控组织作为信息架构专业评审机构,确保信息架构的质量和集成
  • 信息架构建设要求
    • 关键数据应被识别、分类、定义及标准化,数据的定义在公司范围内应唯一,数据标准制定要考虑跨流程要求
    • 数据资产目录必须承接公司各业务环节的使用需求和报告分析最小粒度的要求
    • 信息架构驱动应用架构设计,合理规划数据分布
    • 应用系统数据库的设计和开发要遵循信息架构,减少数据冗余,实现接口标准化
  • 信息架构遵从管控
    • 变革项目必须遵从已发布的信息架构,变革项目的交付件须包含信息架构内容
    • 对现有架构的遵从是关键评审要素,对于不满足要求的变革项目,数据管控组织拥有一票否决权
    • 业务流程设计必须遵从已发布的信息架构,在流程说明文件、操作指导书或模板类文件中体现
    • 应用系统设计必须遵从已发布的信息架构。在应用架构交付件和应用系统设计交付件中体现

数据源管理政策

数据同源是数据治理的核心支撑点之一。数据同源是指业务上首次正式发布某项数据的应用系统,经过数据管理专业组织认证,作为唯一数据源头被周边系统调用。明确公司在数据源建设和数据源使用方面的总体原则和要求,确保数据源头的统一,以及跨流程、跨系统数据的唯一性和一致性。

  • 数据源管理原则
    • 所有关键数据必须认证数据源。关键数据是指影响公司经营、运营报告的数据,在公司范围内统一发布
    • 数据管理专业组织为关键数据指定源头,数据源必须遵从信息架构和标准,经信息架构专家委员会认证后成为数据源
    • 所有关键数据仅能在数据源录入、修改,全流程共享,其他调用系统不能修改。下游环节发现的数据源质量问题,应当在数据源进行修正
    • 所有应用系统必须从数据源或数据源镜像获取关键数据
    • 数据Owner确保数据源的数据质量,对不符合数据质量标准的数据源,必须限期整改
  • 数据源认证标准
    • 数据源是在信息链上正式发布数据的第一个数据存储系统
    • 数据源是某项数据唯一的录入点。每一个数据有且只有单一数据源,数据使用方应从数据源获取数据,数据更改应在数据源进行
    • 数据源必须是数据维护最为及时、正确、完整的数据存储系统
    • 数据源所在系统的性能和可用性应当满足其他调用系统的数据访问需求

数据质量管理政策

数据质量的持续提升是数据治理的核心目标。通过制定数据质量管理政策,明确数据在创建、维护、应用过程中的规则及质量要求,确保数据真实可靠。

  • 数据质量管理职责及要求
    • 各数据Owner负责保障所辖数据的质量,承接公司数据Owner设定的数据质量目标,制定数据质量标准及测评指标,持续度量与改进
    • 公司全员在业务执行的过程中应确保业务记录满足数据质量要求
    • 公司各级数据管理专业组织为数据Owner提供数据质量管理专业支撑
    • 内控组织应将数据质量管控要素的执行情况纳入评估范围,推动数据质量问题的闭环管理
    • 内审部门作为独立机构,负责重大数据问题的审计和责任回溯
  • 数据质量管理的业务规则和管理要求 数据创建、维护、应用是数据生命周期管理的关键活动。
    • 流程建设应考虑数据质量要求,将数据的关键质量控制要素纳入关键控制点
    • 数据Owner负责基于使用要求制定数据质量标准,且须征得关键使用部门的同意
    • 数据创建应确保录入正确,关键数据应进行复核或审批。录入、复核和审批人员应掌握数据质量要求才能上岗
    • 对影响关键经营指标的数据造假行为(如伪造文档、提供与业务实质不符的信息等)采取零容忍态度
    • 上游环节应保证数据的真实、完整并及时传递到下游环节。下游环节为核实数据质量问题可调阅所需的上游环节的数据
    • 因外部原因频繁变化的基础数据(如汇率、税率等),数据Owner应及时维护并统一发布最新数据,各环节应适时刷新或引用
    • 数据质量应持续进行度量。数据Owner应主动解决长期影响业务运营和经营管理的数据问题
    • 报告与分析的层级和最小粒度应适度,能与最小业务信息单元相匹配。数据加工规则应相对稳定,报告加工过程可检视,数据可回溯、可解释

企业数据分类管理框架

数据分类框架是数据治理的基础,华为根据数据特性及治理方法的不同对数据进行了分类定义:内部数据和外部数据、结构化数据和非结构化数据、元数据。其中,结构化数据又进一步划分为基础数据、主数据、事务数据、报告数据、观测数据和规则数据。

png

结构化数据的处理以统一语言为核心,非结构化数据的处理以提取特征为核心,外部数据的获取和处理以确保合规为核心。

信息架构

信息架构的4个核心组件

  • 数据资产目录 数据资产目录形成完善的企业资产地图,也在一定程度上为企业数据治理、业务变革提供了指引。基于数据资产目录可以识别数据管理责任,解决数据问题争议,帮助企业更好地对业务变革进行规划设计,避免重复建设。

业界通常有两种数据资产分类方式:基于数据自身特征边界进行分类和基于业务管理边界进行分类。

主题域,是互不重叠的数据分类,管辖一组密切相关的业务对象,通常同一个主题域有相同的数据Owner。

  • 数据标准
    • 业务视角要求:用于统一业务侧语言和理解,明确定义每个属性所遵从的业务定义和用途、业务规则、同义词,并对名称进行统一定义,避免重复
    • 技术视角要求:对IT实施形成必要的指引和约束,包括数据类型、长度,如果存在多个允许值,则应对每个允许值进行明确的限定
    • 管理视角要求:明确各业务部门在贯彻数据标准管理方面应承担的责任,包括业务规则责任主体、数据维护责任主体、数据监控责任主体,因为很多情况下这些责任并不是由同一个业务部门来负责,所以必须在标准制订时就约定清楚
  • 数据模型
    • 数据模型是从数据视角对现实世界特征的模拟和抽象,根据业务需求抽取信息的主要特征,反映业务信息(对象)之间的关联关系
  • 数据分布
    • 数据分布则定义了数据产生的源头及在各流程和IT系统间的流动情况
    • 数据分布组件的核心是数据源,指业务上首次正式发布某项数据的应用系统,并经过数据管理专业组织认证,作为企业范围内唯一数据源头被周边系统调用
    • 可以通过信息链、数据流来进行描述,体现某一数据在流程或应用系统中是如何被创建(Create)、读取(Read)、更新(Update)、删除(Delete)的

信息架构应基于业务对象设计和实施

业务对象是指业务领域中重要的人、事、物对象。业务对象承载了业务运作和管理涉及的重要信息,是信息架构中最重要的管理要素。

业务对象同时还是业务和IT的关键连接点,也是实现IA(信息架构)、BA(业务架构)、AA(应用架构)、TA(技术架构)集成的关键要素。

判定业务对象的原则:

  • 原则一:业务对象是指企业运作和管理中不可缺少的重要人、事、物
  • 原则二:业务对象有唯一身份标识信息
  • 原则三:业务对象相对独立并有属性描述
  • 原则四:业务对象可实例化

从信息化到数字化

信息化:企业积累了海量的数据,并且还在爆发式地增长。数据很多,但真正能产生价值的数据却很少。数据普遍存在分散、不拉通的问题,缺乏统一的定义和架构,找到想要的、能用的数据越来越难。

数字化:数字化就是通过移动互联网、物联网、区块链、AR等这样的数字化工具来实现更宽更广的数字化世界。数字化驱动企业裂变这条路径必将成为企业自我变革的最佳实践之路。

信息化不改变企业的流程,但是提高效率;数字化则改变商业模式,改变了企业挣钱的方法。信息化改变了企业内部效率,企业还是那个企业;数字化可能会牵动上下游,把产业链的效率都提升,带着整个生态体系一起玩。

数据底座:通过数据湖和数据主题联接的建设,实现数据的汇聚和联接,打破数据孤岛和垄断,重建数据获取方式和次序。

  • 统一管理结构化、非结构化数据。将数据视为资产,能够追溯数据的产生者、业务源头以及数据的需求方和消费者等
  • 打通数据供应通道,为数据消费提供丰富的数据原材料、半成品以及成品,满足公司自助分析、数字化运营等不同场景的数据消费需求
  • 确保公司数据完整、一致、共享。监控数据全链路下的各个环节的数据情况,从底层数据存储的角度,诊断数据冗余、重复以及“僵尸”问题,降低数据维护和使用成本
  • 保障数据安全可控。基于数据安全管理策略,利用数据权限控制,通过数据服务封装等技术手段,实现对涉密数据和隐私数据的合法、合规地消费

数据底座的总体架构:

png

数据底座资产建设遵从下面四项原则。

  • 数据安全原则
    • 数据底座数据资产应遵循用户权限、数据密级、隐私级别等管理要求,以确保数据在存储、传输、消费等全过程中的数据安全
    • 技术手段包括但不限于授权管理、权限控制、数据加密、数据脱敏
  • 需求、规划双轮驱动原则
    • 数据底座数据资产基于业务规划和需求触发双驱动的原则进行建设,对核心数据资产优先建设
  • 数据供应多场景原则
    • 数据底座资产供应需根据业务需求提供离线/实时、物理/虚拟等不同的数据供应通道,满足不同的数据消费场景
  • 信息架构遵从原则
    • 数据底座数据资产应遵从公司的信息架构,必须经IA-SAG(信息架构专家组)发布并完成注册

数据入湖有以下5种主要技术手段:

  • 批量集成(Bulk/Batch Data Movement)
  • 数据复制同步(Data Replication/Data Synchronization)
  • 消息集成(Message-Oriented Movement of Data)
  • 流集成(Stream Data Integration)
  • 数据虚拟化(Data Virtualization)

5类数据主题联接的应用场景:

png

数据服务是基于数据分发、发布的框架,将数据作为一种服务产品来提供,以满足客户的实时数据需求,它能复用并符合企业和工业标准,兼顾数据共享和安全。完整的数据服务生命周期包括服务识别与定义、服务设计与实现、服务运营三个主要阶段。

png

数据质量六维度:

  • 完整性:指数据在创建、传递过程中无缺失和遗漏,包括实体完整、属性完整、记录完整和字段值完整四个方面。完整性是数据质量最基础的一项,例如员工工号不可为空
  • 及时性:指及时记录和传递相关数据,满足业务对信息获取的时间要求。数据交付要及时,抽取要及时,展现要及时。数据交付时间过长可能导致分析结论失去参考意义
  • 准确性:指真实、准确地记录原始数据,无虚假数据及信息。数据要准确反映其所建模的“真实世界”实体。例如员工的身份信息必须与身份证件上的信息保持一致
  • 一致性:指遵循统一的数据标准记录和传递数据和信息,主要体现在数据记录是否规范、数据是否符合逻辑。例如同一工号对应的不同系统中的员工姓名需一致
  • 唯一性:指同一数据只能有唯一的标识符。体现在一个数据集中,一个实体只出现一次,并且每个唯一实体有一个键值且该键值只指向该实体。例如员工有且仅有一个有效工号
  • 有效性:指数据的值、格式和展现形式符合数据定义和业务定义的要求。例如员工的国籍必须是国家基础数据中定义的允许值

数据安全与隐私保护的目标就是解决如何在安全前提下充分共享数据

  • 治理安全隐私方案的思路,就是站在数据治理和元数据管理的基础上,构建对数据共享业务影响低且非介入式的治理框架
  • 安全隐私保护的愿景是“让数据使用更安全”
  • 为了让大家快速理解数据安全隐私保护的核心价值,整个数据安全隐私保护过程都要以元数据为基础,也就是都是以数据治理成果为基础来推进的

png

png

png

参考

版权声明:本文为博主原创文章,转载请注明出处。 旭日酒馆