本文说明有关 中心极限定理 的最新动态。
- 原文链接: https://www.quantamagazine.org/the-math-that-explains-why-bell-curves-are-everywhere-20260316/
详细内容
无论你看向何处,钟形曲线都近在咫尺。
每次下雨时,在后院放一个量杯,记录雨停时的水位高度:你的数据将符合钟形曲线。记录100个人对罐子里软糖豆数量的猜测,这些猜测也会遵循钟形曲线。测量足够多的女性身高、男性体重、SAT分数、马拉松时间——你总会得到同样平滑、圆润、边缘逐渐变细的驼峰状曲线。
为什么钟形曲线会出现在如此多的数据集中?
答案归结于中心极限定理,这是一个如此强大的数学真理,以至于它常常让初次接触的人觉得不可思议,就像自然的魔术。“中心极限定理非常神奇,因为它如此违反直觉且出人意料,”华盛顿大学的生物统计学家丹妮拉·维滕说。通过它,最随机、难以想象的混沌也能导致惊人的可预测性。
它现在是现代经验科学赖以建立的支柱之一。几乎每次科学家使用测量来推断关于世界的某些信息时,中心极限定理都隐藏在方法的某个地方。没有它,科学将很难有把握地对任何事情发表任何看法。
“我认为没有中心极限定理,统计学这个领域就不会存在,”卡内基梅隆大学的统计学家拉里·沃瑟曼说。“它就是一切。”
源于恶习的纯粹性
或许,在随机性中寻找规律性的推动力来自对赌博的研究,这并不令人意外。
在18世纪初伦敦的咖啡馆里,亚伯拉罕·棣莫弗的数学才能显而易见。他的许多同时代人,包括艾萨克·牛顿和埃德蒙·哈雷,都认可他的才华。棣莫弗是皇家学会的会员,但他也是一名难民,一位年轻时因反新教迫害而逃离祖国的法国人。作为外国人,他无法获得与他才华相称的稳定学术职位。因此,为了支付账单,他成为了寻求数学优势的赌徒的顾问。
抛硬币、掷骰子、从一副牌中抽牌都是随机行为,每种结果的可能性相同。棣莫弗意识到的是,当你组合许多随机行为时,结果会遵循一个可靠的模式。
抛一枚硬币100次,计算它正面朝上的次数。结果会在50次左右,但不会非常精确。玩这个游戏10次,你可能会得到10个不同的计数。
现在想象玩这个游戏100万次。大部分结果将接近50。你几乎永远不会得到少于10次或多于90次的正面。如果你绘制从0到100每个数字出现的次数图,你会看到那个经典的钟形,中心在50。你玩的次数越多,钟形就会变得越平滑、越清晰。
棣莫弗计算出了这个钟形的确切形状,后来被称为正态分布。它告诉他,无需实际玩游戏,不同结果的可能性有多大。例如,得到45到55次正面的概率约为68%。
棣莫弗以宗教般的虔诚惊叹于“宇宙的坚定秩序”,这种秩序最终克服了钟形曲线的任何和所有偏差。“随着时间的推移,”他写道,“这些不规则性将与源于原始设计的秩序重现性不成比例。”
他利用这些见解在伦敦维持着微薄的生活,写了一本名为《机会学说》的书,该书成为了赌徒的圣经,并在著名的老屠宰场咖啡馆举行非正式的办公时间。但即使是棣莫弗也没有意识到他发现的全部范围。直到皮埃尔-西蒙·拉普拉斯在1810年(棣莫弗去世几十年后)继承并发展了这个想法,其全部影响才被揭示。
让我们举一个比抛硬币稍微复杂一点的例子:掷骰子。每次掷骰子都有六种可能性相同的结果。如果你反复掷骰子并统计结果,你会得到一个看起来平坦的图表——你肯定会看到掷出1的次数与掷出2、4或6的次数大致相同。
现在掷那个骰子10次并取平均值。你可能会得到3.5左右的结果。重复这个实验很多次,并将所有结果绘制成图。你会得到一个在3.5处达到峰值的钟形曲线,两侧都有精确定义的结构。
这就是中心极限定理的魔力。你从一个完全没有结构的可能结果分布开始——掷出1到6的机会均等。但是通过对多个测量值取平均值,然后一遍又一遍地重复这个过程,你得到了一个精确、可预测的数学结构:钟形曲线。
拉普拉斯将这种结构提炼成一个简单的公式,这个公式后来被称为中心极限定理。无论一个随机过程多么不规则,即使无法建模,许多结果的平均值都具有它所描述的分布。“它真的很强大,因为它意味着我们实际上不需要关心被平均的那些东西的分布是什么,”维滕说。“重要的是平均值本身将遵循正态分布。”
无处不在的工具
求平均值可能看起来像是需要人类去做的事情,但中心极限定理无形地适用于我们在世界上可以观察到的各种事物,比如人类身高。“一个人的身高可能取决于他们父亲的身高、母亲的身高、他们的基因、营养以及所有这些加起来的小影响,”多伦多大学的统计学家杰弗里·罗森塔尔说。这些影响彼此无关(通常,你父亲的身高与你吃的食物无关)。“这有点像对一堆小影响求平均值,”罗森塔尔说,这就是为什么身高大致遵循正态分布。
这就是为什么各种数据集似乎都自发地符合这种美丽的形状。“任何在底层存在平均值的地方,如果它是对足够多事物的平均值,那么你最终都会得到一个正态分布,”维滕说。
该定理还赋予统计学家判断何时发生可疑事情的能力。假设你在老屠宰场咖啡馆喝咖啡,一位顾客递给你一枚硬币,打赌你在100次抛掷中得不到45次正面。你试了试,只得到20次。你怎么知道他是否给了你一枚作弊硬币,这个过程不像应有的那样随机?多亏了中心极限定理,你知道直到20的数字只覆盖了钟形的0.15%,所以一枚公平的硬币给出如此糟糕结果的概率只有0.15%。你几乎肯定被骗了。
这就是拉普拉斯公式的真正力量。他知道对任何过程求平均值都会给你一个钟形曲线,这让你可以对该过程有所了解,而无需更深入地了解它是如何工作的。
小心处理
尽管中心极限定理对现代科学至关重要,但它也有自身的局限性。它只在组合多个样本时才有效,而且这些样本需要是独立的。如果它们不是独立的——例如,如果你只在缅因州的一个小镇进行全国总统民意调查——重复实验不会让你更接近预期的钟形曲线。
有时在科学中,异常值可能比平均值更重要。“‘百年一遇的洪水’突然更频繁地发生,”威廉姆斯学院的应用统计学家理查德·D·德沃说。“如今,对极端事件建模可能与建模平均值同样重要。”
幸运的是,中心极限定理背后的思想——平均值的威力和可靠性——已被广泛用于扩展统计学的力量。统计学家经常为他们正在处理的任何特定问题制定一个版本的中心极限定理。“还有很多更复杂的事情,如果你足够聪明,你可以把它写成样本均值加上一些误差,”沃瑟曼说。在这些情况下,你可以使用该定理的变体来简化问题。
中心极限定理是现代科学的支柱,归根结底,因为它也是我们周围世界的支柱。当我们组合许多独立的测量值时,我们得到集群。如果我们足够聪明,我们可以利用这些集群来发现关于产生它们的过程的一些有趣信息。