根据大数定律,正常的采样数据达到一定数量时,就会呈现出正态分布的特性。我们之所以特别关心数据是否满足正态分布,无非是这两方面的需要:需要在特定的区间内涵盖大部分的重要数据,或者在两端进行特别的处理。
笔者最近在做一个油泵运行时长的评价工作中,就是对油泵每次运行的时长进行统计,如果运行时间太长,那么就认为该油泵运行存在一定的异常,那么应该考虑予以告警。
那么,我们怎么验证数据是否满足正态分布呢?根据网友的介绍,就是对数据进行处理后绘制 “Q-Q”图;我没有专业背景知识,自己理解就是绘制“数据”与“偏差”的双中位数之间的曲线图,如果呈现为一条直线,那么就表明数据呈现出正态分布的特性。
整理数据
使用 RANK 函数对 数值 进行排名计算,如对 B2 求排名,有 D2=
RANK(B2,B:B,1)
,对D列双击即可获得D列结果(下同,不再赘述);对 B2(原始数据)、D2 (排名值) 数据进行计算,求得分位数 ,如 E2=
(D2-0.5)/COUNT(B:B,B2)
;如下:
- 对分位数列进行升序处理,依次点击 Excel 中的:
数据
(选项卡)→排序
,对该数据列进行 升序 排序处理,如下:
如果不进行排序就绘制曲线,那么曲线就会变成一条来回曲折的奇怪线条;因此必须按 分位数 进行排序。
- 对 数据进行z分数计算,如 C2=
NORMSINV(E2)
;
z 分数是标准差的倍数,参考文献[1]可以进一步了解,对应的中文版为 https://www.shuxuele.com/data/standard-normal-distribution.html。
绘制图形
选中上述的 B列(原始数据)、C列(Z分数),执行 Excel 的
插入
(选项卡)→散点图
,即可获得拟合曲线;对曲线进行坐标轴等进行个性化调整,并添加趋势线,最终得到效果图如下:
参考文献
[1] Rod Pierce. Normal Distribution [EB/OL]. https://mathsisfun.com/data/standard-normal-distribution.html, 2022/03/13.
[2] 博客园. 在Excel里绘制Q-Q图 [EB/OL]. https://www.cnblogs.com/jiangleads/articles/12984545.html, 2022/03/14.
最后更新: 2022/03/27 09:30:15
作者: David Faraday
主用链接: https://faradays-studio.gitee.io/202203211952/
备用链接: https://faradays-studio.github.io/202203211952/
引用、演绎等请注明出处,共创和谐社会,谢谢你的合作!