根据大数定律,正常的采样数据达到一定数量时,就会呈现出正态分布的特性。我们之所以特别关心数据是否满足正态分布,无非是这两方面的需要:需要在特定的区间内涵盖大部分的重要数据,或者在两端进行特别的处理。

笔者最近在做一个油泵运行时长的评价工作中,就是对油泵每次运行的时长进行统计,如果运行时间太长,那么就认为该油泵运行存在一定的异常,那么应该考虑予以告警。

那么,我们怎么验证数据是否满足正态分布呢?根据网友的介绍,就是对数据进行处理后绘制 “Q-Q”图;我没有专业背景知识,自己理解就是绘制“数据”与“偏差”的双中位数之间的曲线图,如果呈现为一条直线,那么就表明数据呈现出正态分布的特性。

整理数据

  1. 使用 RANK 函数对 数值 进行排名计算,如对 B2 求排名,有 D2=RANK(B2,B:B,1),对D列双击即可获得D列结果(下同,不再赘述);

  2. 对 B2(原始数据)、D2 (排名值) 数据进行计算,求得分位数 ,如 E2=(D2-0.5)/COUNT(B:B,B2);如下:

求数据的排名以及分位数

  1. 对分位数列进行升序处理,依次点击 Excel 中的:数据(选项卡)→ 排序,对该数据列进行 升序 排序处理,如下:

数据排序

如果不进行排序就绘制曲线,那么曲线就会变成一条来回曲折的奇怪线条;因此必须按 分位数 进行排序。

  1. 对 数据进行z分数计算,如 C2=NORMSINV(E2)

z 分数是标准差的倍数,参考文献[1]可以进一步了解,对应的中文版为 https://www.shuxuele.com/data/standard-normal-distribution.html。

绘制图形

  1. 选中上述的 B列(原始数据)、C列(Z分数),执行 Excel 的 插入(选项卡)→ 散点图,即可获得拟合曲线;

  2. 对曲线进行坐标轴等进行个性化调整,并添加趋势线,最终得到效果图如下:

数据排序

参考文献

[1] Rod Pierce. Normal Distribution [EB/OL]. https://mathsisfun.com/data/standard-normal-distribution.html, 2022/03/13.

[2] 博客园. 在Excel里绘制Q-Q图 [EB/OL]. https://www.cnblogs.com/jiangleads/articles/12984545.html, 2022/03/14.