数据清洗,顾名思义,“黑”的变成“白”的,“脏”的数据变成“干净”的,脏数据表现在形式上和内容上的脏:形式上的脏如缺失值、带有特殊符号的;内容上的脏如异常值。一般来说,脏数据就是数据分析中数据存在乱码,无意义的字符,以及含有噪音的数据。

那么什么是缺失值呢?缺失值包括缺失值的识别和缺失值的处理。缺失值的产生原因很多,包括忽略元组、人工填写遗漏值、使用一个全局常量填充遗漏值、使用属性的平均值填充遗漏值、使用与给定元组属同一类的所有样本的平均值、使用最可能的值填充遗漏值(利用决策树、回归、贝叶斯等算法)等。

在数据缺失严重时,会对分析结果造成较大影响,因此对剔除的异常值以及缺失值,要采用合理的方法进行填补,常见的方法有平均值填充、K最近距离法、回归法、极大似线估计法等。

平均值填充:

取所有对象(或与该对象具有相同决策属性值的对象)的平均值来填充该缺失的属性值。

K最近距离法:

先根据欧式距离或相关分析确定距离缺失数据样本最近的K个样本,将这K个值加权平均来估计缺失数据值。

回归法:

基于完整的数据集,建立回归方程(模型),对于包含空值的对象,将已知属性值代入方程来估计未知属性值,以此估计值来进行填充;但当变量不是线性相关或预测变量高度相关时会导致估计偏差。

极大似线估计:

在给定完全数据和前一次迭代所得到的参数估计的情况下计算完全数据对应的对数似然函数的条件期望。后用极大化对数似然函数以确定参数的值,并用于下步的迭代。

多重插补法:

由包含m个插补值的向量代替每一个缺失值,然后对新产生的m个数据集使用相同的方法处理,得到处理结果后,综合结果,最终得到对目标变量的估计。

异常值也是需要处理的,那么什么是异常值呢?异常值跟缺失值一样,包括异常值的识别和异常值的处理。异常值的识别有两种方法:物理判别法和统计判别法。

物理判别法:

       根据人们对客观事物、业务等已有的认识,判别由于外界干扰、人为误差等原因造成实测数据偏离正常结果,判断异常值。

统计判别法:

        给定一个置信概率,并确定一个置信限,凡超过此限的误差,就认为它不属于随机误差范围,将其视为异常值。常用的方法有拉依达准则、肖维勒准则、格拉布斯准则、狄克逊准则、t检验。

       异常值的处理有删除含有异常值的观测、当作缺失值、平均值修正、不处理。在进行异常值处理时要先复习异常值出现的可能原因,再判断异常值是否应该舍弃。随着数据量的增大,异常值和缺失值对整体分析结果的影响会逐渐变小,因此在“大数据”模式下,数据清洗可忽略异常值和缺失值的影响,而侧重对数据结构合理性的分析。

点赞(216) 打赏

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部