首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

珀尔《为什么》:图灵奖得主讲述因果关系的革命

《为什么》(The Book of Why: The New Science of Cause and Effect)是一本今年5月刚出版的新书。这本书的作者是朱迪亚·珀尔(Judea Pearl),他是一位以色列裔的美国计算机科学家。珀尔在1980年代最先把贝叶斯算法引入了机器学习领域,2011年的时候还获得了计算机领域的最高奖项图灵奖。

《为什么》讲述了珀尔本人在因果关系研究领域的经验与心得。全书的内容量非常丰富,我会尽可能用容易理解的语言,来阐述这本书中的核心内容。

1.因果关系认知的三个层次

我们常常听到一句话说「相关性不是因果性」,比如一个经常听到的例子:公鸡打鸣常常和太阳升起这一现象一起出现,它们之间有着很强的相关性,但我们肯定没法说公鸡打鸣是太阳升起的原因。

但既然相关性不是因果性,那么我们就要问了,到底什么是因果性?

在珀尔这本书里,珀尔把对因果关系的认知分成了三个层次。

第一层次是「观测」,也就是我们凭着经验的观察,发现有两件事情常常是一起出现,它们之间有着很强的相关性。如果这种相关性一直存在的话,我们常常也就误把它当作是因果性来看待了。

第二个层次是「行为」。所谓行为,就是我们要尝试去干预,看干预之后因果关系是不是还成立。有时候我们靠观察得出来的因果关系结论是不靠谱的,往往容易得出我们开头说的那个「公鸡打鸣导致太阳升起」的结论。

如果想要避免这种情况的出现,我们就要学会控制因果关系假设中的变量,例如说我们我们把公鸡的嘴给封上,让它不要叫出来,然后再看太阳是不是照常升起。

第三个层次是「想象」。想象指的是我们要考虑所谓的「反事实」。也就是在现有事实的基础上,我们试想假如某个事情没有出现的话,另一个事情还是不是会继续出现。

例如现在的事实是「你拿起手机,正在看我写的这篇文章」,那么我们想象一个反事实,提出的问题就是「假如你这个时刻没有拿起手机,你还会不会看到我写的这篇文章?」

整本书的框架基本上是按照这三个层次的因果关系认知展开的,我们接下来也会从第一层开始出发,一层层探究因果关系与人类认知的美妙,或者用珀尔本人的话说,就是攀登一级一级人类认知的阶梯。

2.观测

珀尔本人研究人工智能的事件非常早,不过人工智能真正地走进人们的视线,让人们感知到它强大的威力,应该还是从AlphaGo打败李世乭前后才开始。

也大概是从那以后,我们几乎到处都能看到各路媒体对于人工智能的报道,人们在惊叹人工智能强大的威力之余,也在担心人工智能对于人类(或者主要是自己工作)的威胁。

但如果你把人工智能放在珀尔的三层认知阶梯里面来看,人工智能现还仅仅停留在「观测」这第一个层次里面。

现在的人工智能的确非常强大,但不管是机器学习还是近来发展迅速的深度学习,它们算法的核心都是从根据过往的数据来进行预测(或者是产生新的东西)。它们并没有自己自发「干预」的行为。

举例来说,AI可以通过一家公司过往的销售数据来预测这家公司下一年的销售情况,但即便有再多的过往销售数据,AI也没办法回答说「假如明年公司规模扩大一倍,销售会怎么样?」这样的问题。

3.行为

想要回答这样的问题,我们就必须要来到第二个层次,那就是「行为」。所谓行为,简单来说就是回答「如果我们做了……结果会怎么样?」这样的问题。

想要回答这样的问题,我们就必须要对因果关系中间的各个因素进行干预,看干预之后的结果是怎么样的。

我们可以用do(某件事) 这种符号来表示对某件事情的干预。例如P(销量=100 | do(价格=10))就是说在我们人为地把一件商品的价格变为10块钱之后,这件商品的销量是100件的概率为多大(p表示的是概率)。

对比一下,如果是第一层认知的话,这个公式就是P(销量=100 | 价格=10 ),也就是当价格是10块钱的时候,商品销量是100的几率有多大。注意这当中的区别,我们并没有加do这个符号,也就是说我们没有人为地干预价格,仅仅是凭着观察的数据得出的结论。

可能你会问,这加不加do,干不干预好像都差不多,有什么区别呢?

在第一层次,也就是不干预价格的情况下,我们没有办法得知价格的变动是不是受到了其他因素的干扰。假如你是在卖雨伞的话,可能平时每把伞卖5块钱,销量是100把。但到了夏天经常下雨的时候,每把伞就涨价到了10块钱。你发现即便你涨价了1倍,但雨伞的销量还是和之前卖5块钱的时候一样,都是100把。

但是这个时候你不能说雨伞涨价对于销量没有什么影响,因为在这个例子里面,季节(或者说是降雨)因素对雨伞价格和销量都有影响,你没办法判断涨价这个因素对雨伞的销量到底有多大。

想要知道价格对于销量的影响,我们就必须要对价格这个因素进行人为的干预,也就是我们常常听到的控制变量。

做学术研究的人好像都很喜欢控制变量。如果你看一些社会学家做的研究,你就会发现他们经常都会说自己的研究控制了被试者的年龄,性别,种族,家庭情况,业余爱好等等变量,然后得出了一个什么什么结论。

这就是一个典型的控制变量的方法,也正是第二层认知的一个应用。

3.1 三层结构

但是我们必须要说的是,并不是所有变量都是要控制的,这一点很多做研究的人,包括一些统计学家其实都没有搞明白。

想要搞明白什么时候该控制变量,什么时候不能控制变量,我们首先要知道到底有哪些因果关系的结构。从基本形态上来说,因果关系结构一共有三种:

第一种叫链式结构(chain),它们的形式是A -->B --> C。这种形式相信你一看也能理解,无非是A事件发生导致了B,B事件发生导致了C。在这里,我们把中间的那个B叫做是中介(mediator)。

我们举个简单的例子,比如发生火灾与火灾报警器响了这两个事之间的关系,就可以表示成下面这样:起火 --> 产生烟雾-->火灾报警器响。事实上引起火灾报警器响的并不是火本身,而是因为火而产生的烟雾。所以你会时不时看见有乘客因为在厕所吸烟而引起了报警器的反应。

由于引起火灾报警器响的直接原因,是中介烟雾,那么起火对于火灾报警器响就没有直接的影响。换句话说,不管有没有起火,只要有烟雾,报警器都会响。

在这个地方,中介烟雾屏蔽(screensoff)了起火这个原因。而对于我们而言,我们关心的是一个地方到底有没有起火,我们并不是特别关心烟雾这个问题。

但如果你只是去观察数据的话,你就会发现烟雾与报警器响这个事件的相关性几乎上是100%,而起火与报警器响之间的相关性却并不是100%(因为只要起火的时候没有烟,报警器就不会有反应)。

在这种时候,我们想要探究起火与报警器响之间的关系,我们常常就会只看在「产生烟雾时」,起火与报警器之间的关系;或者是看在「没有烟雾时」,起火与报警器的关系。

这种研究方式,我们就把它叫做是控制变量。而起火与火灾报警器之间的关系,我们把它叫做是条件独立(conditionally independent),也就是在一定条件下是独立不相关的。

第二种结构叫做「分叉结构」(fork),它的样子是A C。在这种结构里,B是A和C发生的共同原因,而在统计结果上来看,A和C之间常常会有很强的相关性,即便他们之间并没有什么关系。

举个例子来说,我们想探究小孩子鞋的大小,小孩子的年龄,以及小孩子的阅读能力三者之间的关系。我们可以把这三者之间的关系表示成 小孩子鞋的大小 小孩子的阅读能力 。

但你会发现很有意思的一点,就是小孩子的鞋越大,他们的阅读能力一般也就越高。但很明显鞋的大小和阅读能力之间并没有什么因果关系。

这中间起作用的,是二者的共因:小孩子的年龄。也就是小孩子的年龄越大,他们的鞋也就越大,同时小孩子的年龄越大他们的阅读能力也就越强。即便小孩子的鞋与阅读能力之间有着很强的相关性,但是他们并没有因果性——你给小孩子穿更大的鞋,他们的阅读能力也不会因此提高。

因此如果你想要研究小孩子的鞋大小与他们的阅读能力之间的关系,你就需要控制年龄这个变量。也就是说,在一定的年龄(比如所有8岁的小孩)下面,小孩子鞋大小与阅读能力之间的关系到底是怎样的。

第三种结构叫做「碰撞结构」(collider),这种结构长的样子是 A --> B

还是举个例子来说,假设我们想要探究一个演员的名气,与他的颜值和演技之间的关系,我们可以把它表示成 颜值 --> 名气

那么为什么在这种结构下,我们不能够控制变量B,也就是名气呢?我们假设有一个社交媒体上粉丝数为1000万的明星,在这个模型里面,我们只考虑他的名气是由颜值和演技所构成的。也就是名气带来的粉丝数+颜值带来的粉丝数= 1000万粉丝数。

如果我们选择了控制名气这个变量,也就是说去看所有粉丝数为1000万的明星,他们的颜值和演技是怎么样的。我们就会发现一个问题,那就是那些颜值越高的明星,他们的演技可能不怎么样,反过来那些演技特别高的明星,他们的颜值可能就没那么出众了。

为什么会这样呢?因为当你控制了名气,也就是粉丝数之后,颜值和演技这两个变量其实是具有排斥效应的。举例来说,当总粉丝数1000万固定之后,假设一个明星的颜值带来的粉丝数能够有800万,那么他的演技带来的粉丝数,顶多也只能是1000万减去800万,也就是200万。

反过来也是一样,如果一个明星的演技价值900万粉丝的话,想要总粉丝数有1000万,那颜值带来的粉丝数就只能有100万了。

说到这儿你应该就能看出来了,在颜值 --> 名气

3.2 三层结构的应用

有了这三种因果结构的铺垫之后,我们可以总结出一些规律了。如果有一个变量C,它同时影响了变量X和变量Y,我们就把变量C叫做是X的后门路径(back-door path)。那么你想要探究X和Y之间的关系,你就得控制变量C(就像小孩子的鞋大小与阅读能力那个例子)。

还有一个规律就是在遇到有碰撞结构的因果关系的时候,我们就不用再控制什么变量了。

简单说就是两点:1.后门路径要控制。2.碰撞结构别控制。

明白了这两点之后,你现在就有能力去解决一些困扰学者们非常久的难题了。

比如有一个难题是「吸烟妈妈与低出生体重」问题。我们都知道吸烟是有害健康的,如果一位孕妇在怀孕期间吸烟,那么她的孩子有更大地几率体重比正常婴儿低,这些都没有什么问题。

但是人们惊奇地发现,如果一个孩子出生的时候体重低,那么如果他的妈妈吸烟,那这个孩子的生存几率就高一些;反过来,如果一个低出生体重婴儿他的妈妈不吸烟,那么这个婴儿就更有可能夭折。

这个数据看上去是如此颠覆常识,以至于学者们一度认为是数据统计出了什么问题,于是一次次地进行重复研究,但结果都得出了相同的结论。这个问题从1959年提出来之后,往后的几十年时间里面都没有人能够很好地解释。

但有了前面一些内容的铺垫,或许你现在已经有能力来解决这个问题了。

我们知道,出生时体重低是可能导致婴儿死亡的,那孕妇吸烟,以及其他一些原因(特别是出生缺陷)是能够导致婴儿早产的。我们画一下图,这几个之间的关系大概是这个样子:

看到这个图可能你已经明白当中的问题了:由于「吸烟」和「出生缺陷」都能够导致「出生体重低」,因此这个因果关系结构其实是一个碰撞结构。如果你还记得的话,遇到碰撞结构,是绝对不能够控制变量的。

但是在这个问题里面,人们研究的对象都是那些出生体重低的孩子,也就是说他们控制了「出生体重」这个变量,所以才得出了这个看上去让人难以置信的结论。

这个问题的原因其实和我们前面举的明星的例子是一个道理。我们知道孕妇吸烟和出生缺陷都能够导致婴儿出生体重低,那么在知道一个婴儿的体重低的情况下,我们就可以得出结论说:1.要么是婴儿的母亲抽烟。2.要么是婴儿有着出生缺陷。

因为我们(其实是他们)控制了「出生体重」这个变量,因此结论1和结论2就是互斥的。也就是说一个婴儿要是因为母亲抽烟体重低,那他就基本上能够排除出生缺陷这个情况。反过来也一样,如果一个婴儿是因为出生缺陷导致体重低的话,那也能够基本上排除他的母亲吸烟这个情况了。

而事实上,由于出生缺陷而导致的婴儿体重低,是比孕妇吸烟导致的婴儿体重低更加致命的,因为前者很可能还伴随着更加严重的生理缺陷。和这种出生缺陷相比,孕妇吸烟导致的婴儿体重低也算不了什么了。

3.3 后门路径与前门路径

我们在刚才提到了「后门路径」这个概念,并说遇到后门路径的时候,当中的共因是一定要控制的。就拿下面这个因果结构为例:

在这个结构里面,我们想要探究吸烟与癌症之间的关系,但是不管是吸烟还是癌症,它们都可能受到所谓「吸烟基因」的影响。也就是说,如果一个人有吸烟基因,那么他就更可能吸烟,同时也更有可能患上癌症(事实上研究者已经发现了这种基因,并把它命名为Mr.Big——这让我不禁想起了《欲望都市》)。

在这种情况下面,「吸烟基因」指向「吸烟」的这个路径,就是一个后门路径,如果我们想研究「吸烟」与「癌症」之间的关系,按照我们刚才所说,就必须要控制后门路径,控制「吸烟基因」这个变量。

但在实际操作的过程中,我们很难控制基因这种变量。那这个时候该怎么办呢?我们可以试着用「前门路径」(front-door path)。

所谓的「前门路径」,就是在我们上述的结构基础之上,在吸烟与癌症之间,加上一个中介变量,比如说焦油(我们假设烟草中的焦油能够导致癌症)。加上这个中介变量之后,上述的结构就变成了下面这样:

在这个结构里面,「焦油」就成了这个结构中的「前门路径」了。有了前门路径有什么用呢?有了这个前门路径,我们就不需要再控制「吸烟基因」这个变量了!

具体的细节会涉及到一些数学公式,我们在这里不额外展开,我们就讲一讲这当中的思路。思路其实也很简单,我们只要首先看吸烟与焦油之间的关系,然后再看焦油与癌症之间的关系,对比分析之后,我们就能够得到吸烟与癌症之间的关系了。

那为什么这个结构当中不需要再控制吸烟基因这个变量呢?因为你仔细观察就能发现,在吸烟基因与焦油之间,其实是一个碰撞结构。正如我们前面反复说到的,当遇到碰撞结构之后,我们就无需再控制任何变量了。因此在有了前门路径之后,我们就能够在无需控制后门路径的情况下,研究两个变量之间的关系。

4.想象

前面说的这些东西,都是属于第二个层次,也就是「行为」,或者说是干预的层次。现在我们要进入第三个层次,也就是「想象」的层次了。

所谓想象,简单来说就是当一个事情已经发生了,我们想象假如这件事情里面有些因素如果变了的话,事情还会不会是原来这样。或者更直接地说,这是一个问「要不是(butfor)……还会不会怎么样」的反事实问题。

举个例子来说,假设老王跟老张有仇,老王就想要杀老张。有一天老王碰到老张,就掏出枪来朝着老张打,不过老王大概枪法也不准,就没打着老张,老张赶紧拔腿就跑。就在老张跑的时候,周围一层楼上突然掉下来一架钢琴,刚刚好砸到了老张,老张就这样被钢琴给砸死了。

在这种情况下面,老王应该负什么责任呢?说他是故意杀人罪,好像也不合适(尽管他是试图要杀人),因为天上砸下来的那个钢琴跟他也没有什么关系。而如果是律师给老王辩护的话,律师会说钢琴才是老张死亡的近因(proximatecause)。而在很多法律下,想要判决被告有重罪,必须要证明被告的行为是被害者死亡的近因才行。

但在这个地方,近因这种表述实在是太模糊了。如果我们用必要条件与充分条件来表述,事情会清楚许多。

我们知道在这个问题当中,要是(but for)老王不开枪,老张就不会跑到钢琴下面去。那我们把老王开枪与否设为X(开枪是X=1,不开枪是X=0,下面的Y也同理),老张跑不跑到钢琴下面设为Y。

这样的话,老王不开枪,老张就不会跑到钢琴下面去,我们就可以表述为P(Y=0 | X=0) = 1(表示的是当X=0的时候,Y=0的概率)。那现在我们想要知道的是什么呢?实际上是P(Y(x=1)| X=0, Y=0)的概率。

这个公式我借万维钢老师的话说,就是「我们知道老王要是不开枪的话老张不会被钢琴砸死,那么请问老王开枪的情况下,老张有多大可能被钢琴砸死?」

不管是常识还是概率上来说,我们都明白,老张被钢琴砸死都是一个小概率事件,老王开枪并不是老张死亡的必要条件,也就是说老王开枪,并不会必然导致老张的死。因此在这个地方,老王不应该定为故意杀人罪。

我们还可以拿全球变暖来举例。在2003年8月的时候,西欧遭遇了一次500年一遇的热浪袭击,这次热浪袭击造成了法国等国的巨大损失,死亡人数高达15000人。

在这次袭击之后,就有人说这次极端的天气灾害就是由于全球变暖造成的。但是也有人对这种说法表示质疑,说虽然全球变暖确实是有害的,但也不能说这一次的热浪袭击就是全球变暖直接造成的,造成热浪的原因也可能是其他因素。

那么我们现在就要问了,要不是(but for)全球变暖,这次热浪袭击还会发生吗?

这个问题研究者们虽然不能够用控制实验来做,不过他们可以用计算机模拟来验证这个问题。验证的结果是全球变暖「有90%的几率提高了2003年热浪袭击50%的风险」。听到这儿你估计也头大了,这是一个关于「概率的概率」的结论,所以也难怪这篇拗口的论文没有引起人们足够多的关注。

不过当我们用充分条件和必然条件来考虑这种问题的时候,一切就变得清晰了许多。另一位叫Hannart的研究者,他经过研究之后得出结论说,全球变暖是2003年热浪袭击的充分条件的概率是0.72%,但是全球变暖是必要条件的概率却高达90%。

换句话来说,虽然全球变暖只有0.72%的概率直接导致2003年热浪袭击的发生,但是如果没有全球变暖的话,有90%的概率这次热浪袭击并不会发生。也就是说,全球变暖对于这次热浪袭击,有着不可推卸的责任。

另外必须要说明的是,这里所说的必要条件与充分条件,考虑的都是2003年这一年的情况。如果我们把视角放大到10年或者是20年的话,那么全球变暖是热浪袭击的必要条件概率就会降低(因为可能会有其他因素同样导致这次袭击),但是全球变暖是充分条件的概率将会提高(就像你同时扔两个骰子,仍的次数多了,早晚会扔到两个1朝上)。

5.柏拉图的洞穴

以上,我们对书里的主要内容进行了一个梳理。尽管有很多地方没有深入到细节去讲述,但是我们一样可以体会到因果关系能够让我们以一种全新的角度去审视事物之间的联系。

在这个人工智能当道的时候,我们对于因果关系似乎越来越缺乏兴趣。尤其是近来发展迅速的深度学习领域,更是把计算机的运算过程当作是一个黑箱,我们无需了解这当中过多的计算细节,只需要结果好用也就够了。

但是作为多年研究人工智能的珀尔来说,他其实是希望人工智能能够懂得因果关系的,这也是为什么他提出了一个小图灵测试(mini-Turing test)的原因。而且珀尔还举了一个例子,说假设当他早上还在睡觉的时候,他家里的扫地机器人开始工作,结果发出了巨大的噪音将他吵醒。

这个时候珀尔就对扫地机器人说:「你不该把我吵醒!」在这个地方,珀尔想让扫地机器人明白,它现在的这种做法是错误的。不过珀尔当然希望自己需要重新给这个扫地机器人编程,然后它才懂得什么时候该扫地。

如果这个扫地机器人懂得因果关系的话,它就会明白:扫地会发出噪音,噪音会将人们吵醒,吵醒人们会让人不开心。换句话说,如果早上家里没人的话,扫地机器人是可以工作的;而哪怕是白天,只要有人躺在床上睡觉的话,它都不应该工作。

想要让人工智能实现这种功能,它就必须要懂得因果关系,或者是是珀尔口中的「强AI」(strong AI),而也只有这种强AI,才能够让人工智能在不同领域都能够适用。

而在珀尔的眼中,现在的人工智能还仅仅是柏拉图口中的关押在洞穴里的囚犯。它们的眼睛只能看见洞穴的墙壁,而不能转身回望。它们能够看见洞穴的墙壁上光影来回的走动,能够预测这些光影往后的轨迹,并且预测得非常准确。

但它们却永远不知道,这些光影不过时一个来自更大的三维空间的投影罢了。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180722G1941N00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券
http://www.vxiaotou.com