异常值是一个数据集中与其它值巨大不同时的值,这个值可能是拼写错误,数据测量的误差,或者可能是有些数据点完全出了范围。在数据分析过程中,如果出现了异常值,将会影响数据的准确性和可信度,因此我们需要对异常值进行计算处理。本文将从数据分布角度、三σ法则和其他方法等多个角度,就异常值计算步骤做一些讨论。
异常值计算步骤
一、从数据分布角度
我们可以根据数据的分布情况判断数据的异常值。有以下几种情况:
1. 数据近似正态分布
对于近似正态分布的数据,我们可以用正态分布的理论来判断异常值。一般情况下,如果数据的绝对偏差小于三倍标准差,就可以排除异常值的存在。
2. 数据偏态或不对称分布
对于这种数据,我们需要先将其做对称化处理,使其近似正态分布。可以使用各种偏态分布修正方法,例如:平方根、倒数、对数变换、次方变换等,还可以尝试分段方法、分组平均值、中位数等。
3. 数据分布有高峰或突出点
对于存在高峰或突出点的数据,我们也需要考虑对数据进行对称化处理,并且通过中位数或去掉极端值的均值来判断异常值。
二、三σ法则
对于较大的数据集,我们可以使用三σ法则来判断异常值。三σ法则即在正态分布的情况下,异常值为大于平均值加三倍标准差或小于平均值减三倍标准差的值。这样计算可以将大部分正常数据集中在平均值附近,而将异常值排除在外。
三、Tukey 箱型图判断
又称为“盒式图”,是通过绘制带有旗鼓和箱子的图形来显示数据的分散情况,包括四分位数、中位数、最大值和最小值。箱子的两个端点代表四分位数范围,旗鼓代表极值范围。如果这个范围之外的数据点在小于下四分位数的1.5倍或大于上四分位数的1.5倍处,就可以视为异常值。
四、其他方法
除了以上三种方法,我们还有一些其他方法来判断异常值,例如:
1. Z-score方法:用数据点距平均值的标准偏差距离来度量每个数据点是否在正常分布内。
2. 确定阈值:对于具有特定性质的数据,可以制定特定的阈值,将超出范围的所有值视为异常值。
3. 专业意见:对于某些特定领域的数据,需要根据领域专业人士的意见来判断异常值。
综上所述,初步检验是判断异常值的关键。在进行数据分析时,要首先进行初步检验,以确定数据是否出现异常值和异常值所在位置。在确定了异常值之后,我们可以采取适当的方法来处理异常值,以保证数据分析结果的准确性。
不懂自己或他人的心?想要进一步探索自我,建立更加成熟的关系,不妨做下文末的心理测试。平台现有近400个心理测试,定期上新,等你来测。如果内心苦闷,想要找人倾诉,可以选择平台的【心事倾诉】产品,通过写信自由表达心中的情绪,会有专业心理咨询师给予你支持和陪伴。