F10 数据源质量评估模型

F10 数据质量评估模型

数据质量可以从完整性、准确性、一致性、及时性、可靠性共五个角度进行评估。

  • 完整性

    完整性是指数据的记录和信息是否完整,是否存在数据缺失情况,用于描述数据集对具体业务目标的覆盖程度。主要包括记录的缺失和具体某个字段信息的缺失。

    完整性是数据质量最基础的保障。例如,某个稳定业务的数据量每天约为100万条记录,某天突然下降了1万条,则可能是出现了记录缺失。例如,某科高考成绩表中,每个考卷分数都对应一个准考证号,当准考证号字段的空值数大于0时,则可能是出现了信息缺失。

  • 可理解性

    数据集能否清晰反应业务逻辑,字段和取值意义是否明确。

  • 一致性

    用于描述数据再不同维度上的连贯性,包括数据集在时间轴上的的前后连贯性和在相关的不同 数据集之间的横向连贯性。一致性并不意味着数值的绝对相同,而是数据在收集、处理的方法和标准是否一致,是否遵循了统一的规范,是否保持了统一的格式。

    数据质量的一致性主要体现在数据记录的规范和数据是否符合逻辑。规范指的是,一项数据存在它特定的格式,例如手机号码一定是13位的数字,IP地址一定 是由 4个0到255间的数字加上”.”组成的。逻辑指的是,多项数据间存在着固定的逻辑关系,例如PV一定是大于等于UV的,跳出率一定是在0到1之间的。

    一般的数据都有着标准的编码规则,对于数据记录的一致性检验是较为简单的,只要符合标准编码规则即可,例如地区类的标准编码格式为“北京”而不是“北京市”,我们只需将相应的唯一值映射到标准的唯一值上就可以了。

  • 可获得性

    描述实际业务需要的数据获取的难易程度,包括数据采集清洗,转化多个环节

  • 准确性

    准确性是指数据记录的信息是否存在异常或错误,用来说明数据集对其描述或衡量的业务对象的描述程度。和一致性不一样,存在准确性问题的数据不仅仅只是规则上的不一致。最为常见的数据准确性错误就如乱码。其次,异常的大或者小的数据也是不符合条件的数据。

    准确性是指数据中记录的信息和数据是否准确、是否存在异常或者错误的信息。例如,成绩单中分数出现负数或订单中出现错误的买家信息等,这些数据都是问题数据。确保记录的准确性也是保证数据质量必不可少的一部分。

  • 可靠性

    描述数据集的可信赖程度,包括对数据采集、加工、应用等所有环节的处理是否值得信赖

  • 相关性

    数据集描述的概念对象和实际业务对象之间的相关程度

  • 及时性

    衡量实际业务需求时间和数据可用时间之间的延迟,包括数产生时的时间参数和数据更新频率

完整性: 数据集对具体业务对象的覆盖程度,一般可以从字段和记录两个方面来描述。数据完整性的常见指标有:

  • 用户覆盖度:比如某业务的目标用户600万,现有数据集只覆盖了其中350万,则用户覆盖度为350 ÷ 600 * 100% = 58.3%
  • 业务覆盖度
  • 产品覆盖度

可理解性: 可理解性指标用来表述数据集是否能清晰的反应业务逻辑,字段和取值的具体意义是否明确。常用的可理解性指标有:

  • 存在数据字典
  • 数据字典语义明确
  • 字段取值是否和业务逻辑一致

一致性: 用来描述数据在不同维度的连贯性,包括数据集之间的横向连贯性和时间维度的纵向连贯性。一致性并不意味着数值上的绝对相同,而是数据收集、处理的方法和标准的一致。常见的一致性指标有:

  • ID重合度:在相关数据集中是否存在一个全局的ID,或者不同数据集之间的关联ID是否能一一对应;
  • 属性一致:不同数据集之间,同一个属性的字段名称、取值范围是否一致;
  • 取值一致:不同数据集之间,同个字段的取值范围是否一致、相同情况下的具体取值是否一致;
  • 采集方法一致:数据是否使用相同的工具和方法进行采集;
  • 转化步骤一致:数据的转化过程是否采用相同的方法和工具;

可获得性: 用来描述实际业务需要的数据获取的难易程度,包括采集、清理、转化等多个环节。常用指标有:

  • 易于采集:是否易于采集,采集过程是否简单直接;
  • 易于处理:数据处理过程计算复杂度是否可接受;
  • 合适的存储方式:数据存储结构是否合适,是否便于二次使用;

准确性:数据集是否能够精准无误的反应真是业务情况,准确性是数据质量的重要组成部分。常见指标有:

  • 缺失值占比
  • 错误值占比
  • 异常值占比
  • 抽样偏差: 因统计抽样而带来的样本特征和总体特征之间的偏差。
  • 数据噪声: 数据流通过程中因数据转化而产生的信息损失,如关键信息加密、四舍五入等。

可靠性: 数据集是否值得信赖,包括数据采集、数据处理过程是否可靠等。常见指标有:

  • 采集方法正确:有时候对数据的不同定义会导致采集方法的不同,比如页面曝光事件的定义,如果用户刷新了页面算不算第二次曝光?这要根据不同情况来定义,不同的定义其数据采集方式会不相同。
  • 上报过程可靠
  • 处理方法正确
  • 数据处理全流程通过测试

相关性: 是指数据集中包含的属性是否能很好的描述业务目标,是否能清晰的解答业务问题。第一节我们说到,我们对数据质量的定义是看数据集是否能很好的满足业务需求,因此可以说相关性是数据质量的核心维度。相关性的常用指标主要就是数据字段相关度。

时效性: 时效性可以理解为时间维度的数据相关性,即业务需求的时间范围和数据集表示的时间范围之间的关联程度。比如我们需要分析今年第一季度的某品类销售情况,但数据集是去年第二季度的,这种情况就是极端的时效性差。时效性的常见指标有:

  • 时序区间覆盖度
  • 数据更新频率

数据质量规范:

  • 必须:配置唯一性字段标识。
  • 必须:表注释及字段注释。
  • 必须:不能为空字段监控是否存在空数据,视更新频率及业务需要确定监控频率。
  • 必须:数据维护方,数据在其他应用使用情况
  • 必须:数据
  • 建议:对重要表的重要枚举类型字段进行枚举值变化及枚举值分布监控。
  • 建议:对表的数据量及数据记录数设置周同环比监控,如果周同环比无变化,可能源系统已迁移或下线。

参考资料:

https://zhuanlan.zhihu.com/p/34345593

https://www.chinaz.com/web/2012/1112/281738.shtml

https://help.aliyun.com/document_detail/73660.html