数据清洗与数据质量的关系
       数据清洗过程的主要加工处理对象是脏数据。脏数据本身具有的不一致和不准确性等特点,直接影响了数据的显式和隐式价值,即直接影响了数据的质量。良好的数据清洗过程,能有效地剔去脏数据中的糟粕,使其内含的价值显露。因此数据清洗在提高数据质量上起着决定性的作用。
       数据质量指的是数据的准确性、及时性、一致性和完整性,这几个指标在信息系统中得到满足的程度。通常将数据质量问题分为四类:单数据源模式层问题、单数据源实例层问题、多数据源模式层问题和多数据源实例层问题。缺乏完整性约束以及架构设计差是导致单数据源模式层问题出现的重要原因。由数据记录异常引发的单数据源实例层问题,主要包括拼写错误、冗余记录、数据内部的字段矛盾等。由异构数据模型和架构设计引发的多数据源模式层的问题,主要包括命名冲突、结构冲突等。由重鲁不一致的数据引发的多数据源实例层的问题,主要包括聚合不一致、时间不一致等。

       数据清洗是一种提高数据质量的可行有效的技术方法,它主要用于处理在数据质量问题(例如冗余记录和聚合不一致记录)中,出现在实例层的脏数据。数据清洗具有一定的局限性,它需要与在模式层处理脏数据的数据整合技术共同使用以充分提高数据的质量。

点赞(397) 打赏

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部