正态分布是什么意思_正态分布是什么意思(正态分布有什么用)?下面小编为大家整理介绍。
什么是正态分布?正态分布(Normal Distribution),也被称为高斯分布,代表着概率的分布情况,是统计学中的一个重要概念。
在科学理论不甚发达的过去,早期科学家们往往先从观察事物现象开始,发现、记录并试图归纳、总结,最后抽象出背后的规律。
当一组观察数据或样本涉及到“平均”和“偏差”时,它们出现的频率往往会被描绘成下面这条曲线:
图自百度百科
图中横轴代表着样本数值,纵轴则是某一样本数值对应的出现概率,其中这条曲线即正态分布曲线。
观察这个图形,正态曲线呈现出“钟”形,以 x=μ (均数所在的位置)为中心左右对称。曲线与横轴无穷接近,合成的面积为 1,代表所有样本出现的概率之和为 100%。
以数学的语言描绘这条曲线,
公式中包含两个参数,期望(均数)μ 和标准差 σ。
我们也常用更简化的形式描述什么是正态分布:N(μ,σ^2);μ 代表着分布的集中趋势,横轴上离 μ 越接近的值,出现的概率越大; σ^2 (方差)代表数据分布的离散程度,σ 越大,数据分布越分散,曲线越“矮胖”。
事实上,很多变量(包括生成制造、科学实验、一部分自然界现象)的分布都接近正态分布,比如一群人的身高或脚的大小,我每天上班所需要的时间,一个班级里所有学生的语文成绩。
之所以会出现这种规律,是由于上述样本基于大量随机变量上重复“实验”,就像我每天都上班 = 重复(唉),而地铁有没有挤到两趟都上不去、我有没有因为玩手机而坐过站、步行的两个路口遇到了红灯还是绿灯等这些变量 = 随机。
其背后的理论支撑叫做中心极限定理(对数学史感兴趣的朋友可以点击n重伯努利试验进一步了解)。
了解了什么是正态分布,对我们有什么用呢?
你可以试着找到现实生活中类似“上班时长”的重复随机事件,记录不同的情况出现的次数,统计频率并描绘成图(Excel 就可以轻松实现),检查下它的形状,是否接近正态分布。
当你积累足够多的数据,出现某种“神秘”的规律特征后,未发生的事件会大概率落在一个可信的区间内。
相信读到这里,你已经大致了解了什么是正态分布,并可以在生活中发现它的存在,并利用它来“预测未来”。