世界是确定的还是随机的如何巧用数学调查传染病

2020-04-01 14:55 来源:科创网

世界是确定的还是随机的?如何巧用数学调查传染病?

主讲嘉宾:夏志宏 高山大学教务长、校董,数学家、天文学家,美国西北大学终身教授

一、上帝玩掷骰子吗?

科学界经常有这样的讨论:世界是确定的还是随机的?

爱因斯坦曾经说过,“上帝不和宇宙玩骰子”。这句话旨在质疑一些不太直观的量子力学理论。量子力学的基本思想与我们的直觉完全不同。它相信亚原子世界中的一切都是随机的,而且是真正随机的。有两个最著名的例子:“海森堡测不准原理”和“薛定谔的猫”。

海森堡的测不准原理说,如果要精确测量原子的位置,就不能精确测量其动量。这两个量不能同时精确测量。

薛定谔的猫是一个生动的描述,将微观世界和量子世界延伸到宏观世界。

薛定谔的猫思维实验,显示在维基百科上

f5ab8dc381454accba75e18292ab236c.png

薛定谔的猫:把一只猫放进盒子里。猫的生死取决于原子的衰变。如果原子衰变,盒子里的毒气瓶就会破裂,释放出毒气,毒死猫。如果原子没有衰变,毒气瓶就不会破裂,猫也不会中毒。

原子衰变是随机的。在盒子被打开之前,我们不知道那只猫是活着还是死了。盒子打开后,你可以看到猫是活着还是死了。在盒子被打开之前,一般人会认为猫的生死状态已经确定,但我们只是不知道。

但是量子力学不这么认为。原子衰变以一定的概率发生。它可能会腐烂,也可能不会腐烂。但是在我们打开盒子之前,我们当然不知道衰变状态。

但事实上不仅仅是这样:不是我们不知道,而是在我们观察之前,它本身处于一种叠加的状态,并且它是否衰变同时存在!

反映在宏观世界中,在我们打开盒子之前,猫的“活”状态和“死”状态是叠加在一起的。“活”状态和“死”状态同时发生。“活着”或“死去”的状态只能在我们打开盒子的那一刻决定。

这可能很难想象,这就是为什么爱因斯坦说“上帝不和宇宙玩骰子”。从那以后,关于世界是随机的还是确定的,一直有很多争论。

二、随机与确定的数学原理

从数学的角度来看,世界是随机的还是确定的实际上是同一件事,看似对立但实际上是统一的。

首先,随机系统不是随机的,而是有很强的确定性。

例如,对于房间里的空气来说,每个空气分子都是随机的,但整体是一个非常确定的系统。

从数学上讲,由于分子的数量很大,所以可以应用大数定理和中心极限定理。这两个定理确保了在大数据的情况下,世界实际上是确定的。

另一个例子,量子计算机使用像薛定谔猫一样的叠加态。每个计算过程都是随机的,结果可以说是一个随机的结果,但是经过大量的重复计算,它变成了一个非常确定的结果。

第二,确定的系统具有很强的随机性。

即使一个系统完全由物理定律决定,它也会表现出非常随机的一面。最著名的例子是“蝴蝶效应”。

相对于确定性系统中的随机现象,数学上有一套理论叫做“混沌”,即动力系统的混沌理论。

根据古人的说法,原因在于“小至一英里的差异就是大的差异”的哲学。由此我们可以得出这样的原则,即宏观世界也是不确定的,尽管它是一个确定的系统。同样,我们也可以确认,由于混沌效应,未来是不可预测的。

三、随机系统的确定性

掷硬币的艺术

让我们先看一个简单的例子,抛硬币。

硬币只有两面,正面和背面。扔硬币时,它可能是正面的,也可能是负面的。一般来说,正负概率是一样的,50%,除非硬币是特制的。

假设老师在概率课上布置作业,要求学生课后扔200个硬币,并记录结果。下面是小张的记录,0代表硬币的正面,1代表硬币的背面。

df93f95d3b0349a9b46a8cfbb048d2fd.png

小张的数据记录很可能是假的!也就是说,他根本没有扔硬币,而是随意写下了这串数字。

你认为小张为什么要休假?最简单的分析方法是计算该记录中出现0和1的次数。

我们发现这一系列数字中有111个0和89个1,这意味着在小张的200次掷硬币的结果中,有111个是正的,89个是负的。计算表明,这一结果的可靠性很低,不到1%,这意味着这是不可能的。

掷硬币可以得到任何一串0和1的数字,但不太可能出现一些数字串。

比如扔200次,每次出现是0,或者每次出现是1,这种情况基本上是不可能的。全0或全1的记录基本上肯定是错误的。

让我们再来看看小李的记录:

1a20ff1045bf4023ab5b8194c4f7bcd6.png

几乎可以肯定小李也是装的。让我们先数一下小李记录中的0和1的数目:101个0和99个1。似乎根本没有问题,正面和负面出现的概率是相似的。然而,我们发现111在这个记录中出现了三次,而1111没有出现一次。

我们可以计算出,在投掷200枚硬币的过程中,111次小于或等于3次的情况可信度很低,小于1/1000;1111从未出现过的可信度不到1%。因此,几乎可以肯定小李的记录也是随随便便做的。尽管他将0和1的概率设定为相似,但在其他方面仍然存在问题。

也许有人可以伪造一些记录,并适当地调整111和1111的频率。但是在这200个数字中,不仅仅是111和1111,我们还可以看到010或101的出现次数,它们都是有规律的。

我们已经看到,实际上很难伪造抛硬币的结果,而不是实际抛硬币。最简单的方法是诚实地扔硬币,然后写下结果。只有这样,数据的内在统一性才能得到反映,否则很难做到这一点。

如何用大数据发现论文造假

我们经常在科学文献中看到大量数据,包括数据欺诈。同样,在做出虚假陈述时,不可能实现数据的统一。因此,我们可以利用大数据来打击假冒。

如果以下是来自实验室的一组数据,总共有40个数字:

b088298dc1d14fa3bb0d48e4acc9c90a.png

我们可以发现:

(1)每个数字有7位数字,包括小数点后6位数字;没有最后一位数字为0的人。

从心理上讲,为了在小数点后写下每一个数字,伪造者通常只写很少的零。然而,从实验中实际获得的一组数据中的40个数字没有一个是零的概率非常小。

(2)倒数第二个位置没有1。

这种情况发生的可能性也非常非常小。对于一般物理数据或通过实验获得的任何数据,精确的有效数字可能只是前两个或三个数字。

在一些更精确的实验中,可能会有更多的有效数字,而在其他实验中,有效数字会更少。如果上面例子中的有效数字是三位数,那么下面的数字基本上是随机的;即使有效数字是四位数,最后三位数也是相对随机的。

一般实验数据,最后几个数字更随机。因此,最后一位出现零的概率非常小。我们可以用这种方法找到可能是假的文章进行假的分析,数据量越大,假的就越准确。

我们也可以使用一些更简单的方法。刚才,这组数据总共只有40位数。数据量相对较小,统计规律有时并不那么明显。然而,我们可以把它分成奇数和偶数,而不是0,1,2,3,4,5,6,7,8和9。这时,它的统计规律就显而易见了。或者数据可以用二进制来表示,这时数字在某个位置的统计规律会很强。

随机系统的应用

利用随机系统的性质,我们可以做出一些真正有意义的统计。

例如,防疫部门需要以问卷的形式对传染病的发病率进行统计,如性传播疾病和结核病。

然而,由于保护他们的隐私,即使调查结果不会向公众公布,受访者也可能不愿意如实回答问卷上的相关问题。

那该如何完成这项调查呢?

利用随机性,我们有一个简单的解决方案。回答问卷前,给每个受试者一个骰子,并掷骰子。如果骰子的结果是1,2,3,4,如实回答。如果骰子结果是5或6,你必须撒谎。

因为收到问卷的人不知道每个人掷骰子的具体情况,所以他不知道问卷上的答案是否正确。因此,受访者可以毫不犹豫地回答问卷。

此时,虽然每个人的答案都是随机的,但根据上面提到的原则,总的统计数字可以非常准确。

假设30,000份问卷中有12,000份回答说有传染病,那么实际情况应该是多少人?误差有多大?

我们不妨计算一下:如果病人的实际人数是x,假设他们中有2/3如实回答,1/3撒谎,那么回答病人的人应该是:

x * 2/3(30000-x )* 1/3=12000

解这个方程可以得到x=6000。

由于每次掷骰子都是随机过程,患病人数不一定是6000人。如果置信区间设置为95%,那么我们计算这个统计结果的误差不超过139人,也就是说,真正患病的人的范围是6000-139人;将置信区间扩大到99%,最大可能误差约为200人,因此统计结果相当可靠。

大数定理与中心极限定理

从上面的例子中,我们可以看到随机系统的确定性比想象的要强得多。在物质世界中,每个原子和分子都有很大的不确定性,但是当大量的原子和分子放在一起时,这种不确定性就会消失,表现出很强的确定性。

例如,如果投掷一百万枚硬币,在0.26%(即-3δ)的置信水平下,正面和背面出现次数的平均误差不会超过0.015。

一些数学理论揭示了随机系统的一些非常好的内在规律,其中最好和最简单的是大数定理。

大数定律告诉我们,当一个实验重复多次或数据量很大时,数据的平均值将更接近数据的期望值。

中心极限定理是比大数定理更精确的数学理论。它在形式上比大数定理稍微复杂一些,但它也很简单。

我们仍在考虑掷硬币的例子。假设正负边的概率为50%,正边记录为0,负边记录为1。

投掷硬币概率分布1

4e29473a092c4bb4938a74ddaa7f39c1.png

对于第一次投掷,0的概率是50%,1的概率是50%。[见图(1)]

对于第二次投掷,记录为0的概率是50%,记录为1的概率是50%。取前两个结果的平均值,0的概率为25%,1的概率为25%,50%的概率为0.5。[见图(2)]

扔第三次,并平均三次的结果。平均值为0(即记录为000)或1(即记录为111)的概率非常小。[见图(3)]

……

投100次取平均值,平均值分布在中间比较突出,两边特别小,100次都是0或者都是1基本上是不可能的。[见图(4)]

投掷硬币概率分布2

517bb667a8ac4422bc8bf9087d44f792.png

如果我们换一枚重量分布不均匀(一重一轻)的硬币,其正面和背面的概率是不同的。有趣的是,通过投掷100次非均匀硬币获得的平均值的概率分布模式在形状上几乎与通过在[图(4)和(8)之前投掷100次均匀硬币获得的概率分布模式相同,两者都非常类似于教堂钟。

中心极限定理意味着,无论原始概率分布是什么,只要满足一些基本的性质要求并反复进行实验,最终的平均值就呈现钟形分布。

四、确定系统的随机性

与随机系统相对应的是确定性系统。某个系统的“确定性”不是绝对的,而是经常不可预测的。

故事:棋盘上的麦粒

棋盘上的麦粒

e53edaee83454d4ebe420b8bbdeec76a.png

传说一位印度数学家发明了象棋。皇帝很高兴知道这一点,并希望奖励数学家。数学家说:“我不想要太多。你在第一格放了一颗小麦,在第二格放了两颗,在第三格放了四颗,在第四格放了八颗……我很满意用这种方式填满棋盘。”

皇帝听了之后,觉得数学家并不贪婪,只需要一些小麦。但是他没有想到的是他需要多少小麦来满足数学家。我们可以简单地计算小麦的数量:

3c31b33491da4e3fa37a29619b153c01.png

最终的结果是一个非常大的数字。可以简单地转换,这么多小麦大约140万亿升,大约是去年世界小麦产量的400倍。这相当于把2000年以来的世界小麦总产量放在一个棋盘上,几乎符合数学家的要求。

这个例子表明几何级数增长非常快。起初,这似乎微不足道,但每一次增长都大于之前所有增长的总和。即使几何级数增长7%(比如中国的国内生产总值),它也将在10年内翻一番。如果保持7%的增长率,每十年的产值将大于历史总产值!

将来不可预测的混沌系统

假设一个封闭的盒子里装满了气体。我们可以从数学上证明气体分子在盒子中的运动有这样一个性质:某个气体分子的运动由于某种原因可能会引起一个小的偏差,这个小的偏差可能会以指数形式增加,也就是说,偏差会每隔一段时间增加一倍。

因为气体分子移动得更快,它们的轨迹误差可能在不到一两秒钟内翻倍。如果在一秒钟内加倍,64秒后,这个误差可能超过“棋盘上的颗粒”故事中的天文数字。但幸运的是,盒子的移动受到限制,整体误差被限制在盒子的范围内。

从数学上讲,如果系统有这样一种机制,即在微观状态下,误差呈指数增长,那么它的影响将“小到一毫米,大到一英里”指数增长是一个非常可怕的增长趋势。具有这种增长机制的系统称为混沌动力系统。

在微观状态下,混沌动力系统的误差将呈指数增长。在宏观状态下,我们不知道会发生什么,而且误差也不会因为运动的逆转或其他宏观物理限制而无限增长。

混沌的状态一般可以量化,量化的结果是数学中的李雅普诺夫指数。李雅普诺夫指数告诉我们将小误差翻倍需要多长时间。如果每单位时间翻倍,指数为ln(2)。如果你每t个时间单位翻倍,这个指数就是ln (2)/t。

复杂系统的不同区域可能具有不同的压缩指数。对于一个混乱的系统,结论是它的未来是不可预测的。“不可预测的未来”最典型的例子是蝴蝶效应。蝴蝶效应是气象系统的一个例子。它指的是蝴蝶翅膀的微小颤动,这种颤动会在几周内导致全球气候变化。气象系统是一个非常复杂的混沌系统。

Lorenz 吸引子

洛伦茨(Lorenz)是麻省理工学院的教授,专门研究气象学。气象方程是一个非常复杂的偏微分方程系统。它的解结构非常复杂,有许多未解决的问题。未来,洛伦茨将把气象方程简化成三维空间中的一组常微分方程:

cc40f6ffd6774251851735251cff4f01.png

这个常微分方程有三个参数δ、β和ρ。它看起来像一个非常简单的三维方程,但是它有两个非线性项。一般来说,只要有非线性项,就基本上不可能用理论公式来精确求解和获得具体的轨道。唯一的方法是使用数值计算。

当δ=10,β=8/3,ρ=28时,数值计算发现方程的解的轨道呈现以下奇怪现象:

奇怪的吸引子

7ef446b3508142669e5af9cb2446d147.gif

不管你从哪里开始,所有的轨道最终都会运行到上面的数字,这在数学上被称为一个奇怪的吸引子。

也就是说,对于上面的三维方程,从几乎所有的初始点开始,跟踪该点的轨迹会发现它正在做一个非常相似而且看似简单的运动,而它的轨迹最终会画出上面奇怪吸引子的形状。

这个形状可以大致分为两部分,即左和右。但是对于每一个轨道的每一个时刻,无论是左边还是右边的运动都是非常随机的,看起来是杂乱无章的。

如果你选择吸引子上的任何一个点,它的轨道会向左旋转几圈,然后向右旋转几圈,然后向左旋转几圈,这样就可以来回到无穷远。

每一侧每次的转弯次数由初始点决定,类似于蝴蝶效应,稍微改变初始点的位置,但是经过一定的时间后,会有很大的差异,并且左侧和右侧的转弯次数将与原始的完全不同。也就是说,经过很长一段时间后,出现在左边或右边变得完全随机。

洛伦兹系统是一个混沌系统。它是一个确定性的动态系统,因为它的运动完全由一组常微分方程决定。但是它是不可预测的,也就是说,我们没有办法知道一个点在长时间运动后的确切位置。只要时间长,非常小的误差就会给最终测量带来非常大且不可接受的误差。

五、复杂度、信息量和熵

如果洛伦兹系统的轨道在左边或右边分别标记为0或1,我们会发现,对于这样一个特定的动力系统,它的轨道与前面的一串抛硬币实验结果相同,并且可以得到一串由0和1组成的数字。在信息学领域,一系列莫尔斯电码也给出一系列由0和1组成的序列。

洛伦兹系统、掷硬币实验、莫尔斯电码,这三个例子分别代表了测定系统、随机系统和信息传输系统。从数学的角度来看,它们完全一样,没有任何区别。

一个轨道,一串投掷硬币的实验和一串莫尔斯电码都会产生一串0或1个字符。因此,在这三个系统的本质中,所谓的随机性和确定性之间没有严格的区别,它们的许多性质可以用同样的方法来研究。例如,我可以研究不同系统的复杂性。

熵的概念是衡量动态系统复杂性的一种方法。熵越大,系统越复杂。但是相同的概念或相同的量在概率论和信息学中有不同的含义和应用。

概率论或信息论中的熵代表信息量,或信息量的期望值。熵越大,信息越多。信息在大数据分析中有着重要的应用。

熵代表网络或信息交流中的网络容量和交流能力。熵越大,网络容量越大。

总而言之,从表面上看,这些系统和相应的概念是完全不同的,有时甚至是相反的,例如随机系统和确定性系统,但数学巧妙地将它们统一起来。

随机的?确定吗?这取决于你在哪里观察。

本文基于2020年3月21日高山大学与复兴学院夏志宏教授联合制作的《科学公益直播》课程,经教师审阅后公开发表。

标签: 硬币 妙用 世界

热门文章

热点图文