网易数据标准实践白皮书-2024版

网易数据标准实践2024版2024版现实生活中,标准与我们息息相关,我们吃的食品需要满足国家标准才能给我们食用,汽车排放达标才能够上路行驶,电脑接口得满足统一的标准才能够与外设对接等等。在数据的世界,数据标准也同等重要。我们期望将数据标准真正应用到实践中去,帮助企业解决资产化不足、数据质量难以提升、数据开发效率低等问题,于是网易开始了数据标准的建设。在本手册中,网易将基于对数据标准的理解,阐述标准的建立并依据标准的建立内容和流程来设计的标准管理产品的介绍以及标准在数据治理过程中的具体实践,希望与大家碰撞出新的认识!导读introduction目录CONTENTSData standard数据标准是什么010102value数据标准价值0303Set up如何建立数据标准053.1 数据标准规划05L 收集现行标准05L 从局部标准到全局标准06L 发现更多数据标准063.2 数据标准制定07 L 元数据标准07L 基础数据标准10L 技术标准制定143.3 数据标准发布143.4 数据标准执行153.5 数据标准检查163.6 数据标准维护16Product introduction数据标准产品介绍17044.1 产品总体架构174.2 产品功能模块181 标准概览181 数据标准文件管理191 数据项标准管理191 元数据标准管理221 技术标准管理231 标准流程管理241 标准配置2705practice数据标准和数据中台的结合实践285.1 数据传输295.2 元数据291 表元模型设计301 字段元模型设计311 指标元模型设计321 标签元模型设计325.3 模型设计331 分层规划331 分类规划331 表结构及数据项标准设计345.4 数据开发355.5 数据质量355.6 数据安全36Sum up总结370638-41About us关于我们在实际的工作生产中,我们一般会参照国家标准、地方标准、行业标准等来进行具体的活动,来确保我们生成过程符合监管要求、便于上下游协同等,于是我们会见到如下的标准指导文件:同样,数据标准也会以文件的形式存在,在除了国标、行标定义的标准外,企业内部为了便于各部门采取同样的数据建设规范,通常会使用文件来定义数据标准,以供各部门达成统一的共识。然而文件固然是标准的一种体现形式,但文件是非结构化的,在实际应用中,我们只有理解、提取文件里的内容,将标准应用于产品设计及流程活动当中去,标准才能起到真正的规范约束作用。01 数据标准是什么?01Data standard毫无疑问,这是正确的。但我们还需要将标准践行,以建设数据中台为例,我们知道数据中台强调的是资源整合,在数据层面就是整合多源异构系统中分散在各个孤岛的数据,形成统一的数据服务能力,这是一项艰巨的任务, 很难通过互相约定以及默认信任相关方来保障数据的价值发掘,形成真正的数据资产。于是,基于此点将数据标准进行扩充,一是对管理范围的扩充,从狭义的数据标准(指对基础数据本身的规范性约束,如数据格式、类型、值域等)扩充到整个数据中台层面的标准(包含治理各阶段的规范性约束);二是对管理手段的扩充,数据标准不再是指一系列的数据标准化文档,而是一套由规范要求、流程制度、技术工具共同组成的体系,通过这套体系完成标准的规划、制定、发布、执行、检查、维护等行为,来完成数据的标准化以及标准的沉淀。根据信通院发布的《数据标准管理实践白皮书》定义:数据标准(Data Standards)是指保障数据的内外部使用和交换的一致性和准确性的规范性约束。02免费试用在线咨询在说价值之前,我们先聊聊让我们头疼的问题。人人都在谈论数据标准,但数据标准真的被应用起来了么,我们拿着一堆标准文件,期望企业内部宣贯大家要按照这个标准来,但执行的结果如何?数据集成多源异构数据时,数据工程师真的能快速理解这些数据的实际业务含义么?如果理解成本很高,开发人员可能就会出现认识偏差。终于数据集成进来了,可以开始进行数据建设了,如何保证每一层的数据都是符合质量要求的,靠开发的个人素质么?比如我们一般在dwd层做数据标准化,那么不同主题域的由不同的负责人进行开发,怎么保证标准化的结果似乎满足规范的?dws的数据可信度还能保证么?还能被叫做公共模型层么?再后,数据工程师开发完成后需要对外开放,我们其实开发的不光是其数据,还需要开发它的元数据信息,帮助数据使用方快速的找到需要的数据,如果只是把数据堆在一起,只有研发人员自己知道这个数据是什么、在哪、怎么使用,那是不能够被称为数据资产的。还有很多问题,这里只列举了些典型。当然这些问题,是可以解决的,解决的方式就是数据标准。解决的的过程可能需要的时间比较长,因为标准从管理到落地执行推进并不是一件容易的事,需要从思想上进行转变,但我们总要正确的做事。03下面列举了一些价值,但在实际的应用过程能够发现更多的可能性价值一:建立统一的数据视图建立通用的元模型规范,支持用户自定义扩展,对多源异构数据表进行信息抽象提取,形成统一的元数据层。所有的数据开发完成后发布到数据标准维护的统一的数据目录,通过不同维度的数据目数据标准的价值02value04价值二:建立统一的数据认知首先利用标准完成对多源异构数据的标准化描述,虽然数据在不同系统中的称呼千奇百怪,但只要进入我们的平台都将赋予统一的名姓,使得管理方、开发方、使用方建立统一认知。对于仓外表将数据标准与表字段进行关联,旨在统一含义以及告知未来数据处理的方向;对于仓内表,模型设计之初就需要引用标准,我们知道将数据项进行组合即可得到模型,数据元即为标准数据项池,模型设计时仅需从池子里选取需要的字段进行组合即可组装成想要的模型。价值三:建立质量稽核体系现有的质量稽核一般是由用户根据业务需求手动设置,不同人员的认知偏差将导致数据质量难以控制。数据标准通过数据元的表示类属性,根据其格式、类型等要求自动生成质量稽核规则,当某张表的字段绑定了数据元时,即可根据数据元的质量信息要求自动生成稽核任务,且保证了源头定义的一致性。价值四:面向未来的数据治理我们知道,工具的终极目的都是为了降本提效。效率提升是要靠流程规范的,流程足够规范,在某种程度上可实现流程自动流转。因此,未来的数据治理趋势应当侧重于流程自动化以及阶段智能化,而这两点都需要数据标准的支撑。阶段智能化期望在流程各阶段提供智能识别能力,比如字段的真实含义(挂载数据标准)、资源所属分类、字段枚举值等,减少人工参与。从短期来看,用户从处理者变为审核者,从长期来看,用户干预的行为反哺识别模型,增加识别准确性,可降低人力成本;流程自动化依赖阶段智能化以及人工干预的结果,将各阶段进行串联,上下游尽可能完美对接,当上游阶段达到下游准入条件时,可自动触发流程运作,当然该过程也需要统一上下游语言(即数据标准),在实际实践中,可通过试运行进行验证。标准的价值还有很多,限于篇幅不过多赘述,大家可以不断发现标准的应用场景。说完标准的价值了,那么我们该如何建立数据标准呢?录进行多维筛选,满足各类用户的检索需要,达到资产的可管、可用、可查的目标。05在早期的业务发展过程中,企业为了解决当下的业务问题,各业务条线已建设自己个性化的业务系统,在

立即下载
综合
2024-09-30
47页
16.89M
收藏
分享

网易数据标准实践白皮书-2024版,点击即可下载。报告格式为PDF,大小16.89M,页数47页,欢迎下载。

本报告共47页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
本报告共47页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
水滴研报所有报告均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
相关图表
图 9-2 2023 年支付清算行业主体为员工提供的促进职业发展主要手段
综合
2024-09-30
来源:2024中国支付清算行业社会责任报告
查看原文
图 9-1 2023 年支付清算行业主体依法保障员工权益情况
综合
2024-09-30
来源:2024中国支付清算行业社会责任报告
查看原文
图 8-2 2023 年支付清算行业主体志愿者活动情况统计
综合
2024-09-30
来源:2024中国支付清算行业社会责任报告
查看原文
图 8-1 2023 年支付清算行业主体开展慈善捐助活动的情况统计
综合
2024-09-30
来源:2024中国支付清算行业社会责任报告
查看原文
图 7-1 2023 年支付清算行业主体采取节能降耗措施的情况统计
综合
2024-09-30
来源:2024中国支付清算行业社会责任报告
查看原文
图 6-2 2023 年支付清算行业主体诚信体系建设情况
综合
2024-09-30
来源:2024中国支付清算行业社会责任报告
查看原文
回顶部
报告群
公众号
小程序
在线客服
收起