大数据血缘分析系统设计(一)

  |   0 评论   |   11,215 浏览

数据血缘关系介绍

定义

Data Lineage 数据血统,也叫做Data Provenance 数据起源或Data Pedigree 数据谱系

从数据的产生,ETL处理、流转流通,到最终消亡,数据之间自然会形成一种关系,类似于人类社会的血缘关系,我们称之为数据血缘关系。

数据血缘关系有一些明显的特征

  • 归属性。一般来说,特定的数据归属特定的团队或者个人

  • 多源性。同一个数据可以有多个来源(多个父亲)。一个数据可以是多个数据经过加工而生成的,而且这种加工过程可以是多个。

  • 可追溯性。数据的血缘关系,体现了数据的生命周期,体现了数据从产生到消亡的整个过程,具备可追溯性。

  • 层次性。数据的血缘关系是有层次的。对数据的分类、归纳、总结等对数据进行的描述信息又形成了新的数据,不同程度的描述信息形成了数据的层次。

数据血缘关系图中的元素

数据节点

用来用来表现数据的所有者和数据层次信息或终端信息

有三种类型:主节点,数据流出节点,数据流入节点

  • 主节点只有一个,位于整个图形的中间,是可视化图形的核心节点。图形展示的血缘关系就是此节点的血缘关系,其他与此节点无关的血缘关系都不在图形上展示,以保证图形的简单、清晰。

  • 数据流入节点可以有多个,是主节点的父节点,表示数据来源

  • 数据流出节点也可以有多个,是主节点的子节点,表示数据的去向;包括一种特殊的节点,即终端节点,终端节点是一种特殊的数据流出节点,表示数据不再往下进行流转,这种数据一般用来做可视化展示。

流转线路

表现的是数据的流转路径,从左到右流转。数据流转线路从数据流入节点出来往主节点汇聚,又从主节点流出往数据流出节点扩散

数据流转线路表现了三个维度的信息,分别是方向、数据更新量级、数据更新频次

  • 方向的表现方式,没有做特别的设计,默认从上到下流转;

  • 数据更新的量级通过线条的粗细来表现。线条越粗表示数据量级越大,线条越细则表示数据量级越小。

  • 数据更新的频次用线条中线段的长度来表现。线段越短表示更新频次越高,线段越长表示更新频次越底,一根实线则表示只流转一次。

数据血缘关系的作用

数据溯源

溯源,指的是探寻事物的根本、源头。我们分析处理的数据,可能来源很广泛,有政府的数据,有互联网的数据,有通过数据交易从第三方获取的数据,还有自身拥有的数据。不同来源的数据,数据质量参差不齐,对分析处理的结果影响也不尽相同。当数据发生异常,我们需要能追踪到异常发生的原因,把风险控制在适当的水平。

数据的血缘关系,体现了数据的来龙去脉,能帮助我们追踪数据的来源,追踪数据处理过程。在数据的血缘关系可视化图形上,主节点的上面就是数据来源节点,非常清晰,一目了然。数据经过了哪些转换也能从可视化图形上看出来,对异常数据产生原因的分析帮助很大。

评估数据价值

数据的价值在数据交易领域非常重要,涉及到数据的定价。要对数据价值进行评估,就需要有依据。数据血缘关系,可以从几个方面给数据价值的评估提供依据:

  • 数据受众。在血缘关系图上,下面的数据流出节点表示受众,亦即数据需求方,数据需求方越多表示数据价值越大;

  • 数据更新量级。数据血缘关系图中,数据流转线路的线条越粗,表示数据更新的量级越大,从一定程度上反映了数据价值的大小;

  • 数据更新频次。数据更新越频繁,表示数据越鲜活,价值越高。在血缘关系图上,数据流转线路的线段越短,更新越频繁。

数据质量评估

从数据的血缘关系图上,可以方便的看到数据清洗的标准清单,这个清单反映了对数据质量的要求。

数据归档、销毁的参考

如果数据没有了受众,就失去了使用价值。从数据的血缘关系图上看,最下面没有了数据节点,就可以去评估主节点所代表的数据是否要归档或者销毁了

本文的理论部分参考了《数据之间有血缘关系?数据治理不得不懂的血缘关系梳理方法

读后有收获可以支付宝请作者喝咖啡