《The Book of Why》笔记:8-反事实

反事实:探索关于假如的世界

1. 引言

前述方法总结:

  1. 如果可以采集到能够阻断所有后门路径的变量集数据,则可以使用后门调整公式来估算干预效果
  2. 如果能够找到被混杂因子屏蔽的前门路径,则可以引入前门调整
  3. 如果愿意接受线性或者单调性假设,可以使用工具变量
  4. 可以使用 do 演算和其衍生算法寻找新路径

本章讨论如何使用观察数据和试验数据来提取有关反事实情景的信息,解释一些因果图的具体细节。并介绍一个密切相关的概念,叫做 “潜在结果”(potential outcomes)。还将解释反事实如何自然地在结构因果模型(SCMs)中出现。

2. 从修昔底德和亚伯拉罕到休谟和刘易斯

2.1 代表性观点

注意,强调的部分代表和反事实的关联的内容。

  • 修昔底德:在地震最猛烈的时候,大海被某种力量驱使着远离海恩,又以那种加倍的力量骤然冲回陆地,引发洪流。假如没有地震,那我无从理解这种灾难是如何发生的。
  • 亚伯拉罕:通过和上帝的假设性问答进行推理,试图理解掌管集体惩罚的律例,罪恶达到怎样的程度对于实施集体惩罚才是充分的。
  • 亚里士多德:研究了因果关系更加 “普遍” 的层面。用其典型、系统性的语言,构建了一个完整的因果关系分类。
  • 休谟:
    • 早期:否认任何两个对象具有使一个为因,另一个为果的内在特质或者 “能力” 的可能性。在他看来,因果关系完全是人类自身记忆和经验的产物。“看见两个事物并想起他们在过去所有经历中它们的恒常性联结”,这个定义也被称为因果关系的 “规律性” 定义。
    • 晚期:可以给一个因下定义说,它是先行于、接近于另一个对象的对象,而且在这里,凡与前一个对象类似的一切对象都和后一个对象类似的哪些对象处在类似的先行关系和接近关系中。假如没有前一个对象,后一个对象就不可能存在。
  • 大卫·刘易斯:在著作《反事实》(Counterfactuals)中呼吁学界放弃规律性定义,而应该将 “A 导致 B” 解释为 “假如没有 A,则 B 就不会发生”。
    • 在 19 到 20 世纪的大部分时间,哲学家忽略了休谟晚期的定义,认为反事实表述 “假如”(would have)软弱和不确定。
    • 说 “如果……,应该……” 实际上是通过比较现实世界和在其它方面和现实世界最相思的假如世界来评估反事实陈述。
    • 如果我们的目的是解释人们所说的 “A 导致 B” 的含义,只需要假设人们可以设想出可能的世界,并能判断出哪个世界 “更接近” 现实世界。它源于这样一个事实:我们体验的是同一个世界,并且共享因果结构的心理模型。

2.2 结构因果模型

结构因果所做的工作与因果图相似,但是包含更多数学细节。通过删除结构模型中的方程来评估 “假如 X 曾是 x” 这样的表示。

结构因果模型还解决了如果可能性数量超过人脑处理能力,那么人类如何表示可能的世界,并找到与现实最接近的那个。科学家将表示称之为 “表示问题”(representation problem)。结构因果模型非常有希望以某种形态或者形式来充当这种实用便捷工具。

  • 结果因果模型本身就是一个可行的捷径
  • 它是大脑中部分模式识别机制的整合

3. 潜在结果、结构方程和反事实的算法化

3.1 潜在结果与统计缺失填充

鲁宾将潜在结果作为一种回答因果问题的语言加以介绍。其模型中,变量 Y 的一个潜在结果就是 “加入 X 的值为 x,那么 Y 在个体 u 上的取值”。

奈曼提出了潜在结果理论,在潜在结果中,我们同时能够观察到的结果最多只有一个。传统统计学家将因果推断问题看作一个数据缺失问题,存在以下简单方法:

  • 插值方法将空格填满;一种常见的推定方法是匹配,但是该方法可能没法找到完美匹配的对象
  • 线性回归,使用标准统计方法来查找数据的最佳拟合直线

这种视角本质上存在缺陷。它们是数据驱动的,而不是模型驱动的。

3.2 结构因果模型

过程:

  1. 绘制因果图,对数据背后的因果叙述进行编码
  2. 查看因果图,发现一些重要的事实,比如:
    • 模型是错误的吗?
    • 混杂因子
  3. 假设映射函数是线性的(结构的)

3.3 反事实的算法化

如何从结构模型中推导反事实?

  1. 外展:利用数据估计特质的因子(idiosyncratic factors)
  2. 干预:利用 do 算子改变模型,以反应我们提出的反事实假设
  3. 预测:利用修改后的模型及有关的外生变量(exogenous variables)的更新信息来进行估计

4. 看到你假设的好处

结构因果模型与鲁宾方法的不同:

  • 前者使用了因果图,雨荨研究者使用他们理解的方式标识因果假设,并将所有的反事实作为世界模型的一种衍生属性
  • 鲁宾的因果模型将反事实视为抽象的数学对象,可以借助代数对象来管理,而不视其为模型中衍生出来的属性

鲁宾因果模型的三个假设:

  1. 单位处理效应稳定假设,stable unit treatment value assumption:无论其他单位接收何种处理,对于每个单位而言,其处理效应都是稳定不变的(除非研究的是传染病或者其它集体性感染病)
  2. 一致性:例如一个自行决定服用阿司匹林并因其康复的人,加入它是通过在某个临床试验中接受随机分配的方式服用阿司匹林,那么他一定会康复
  3. 可忽略性,ignorability:可以用潜在结果变量 Y_x 表达同样的要求。给定某组(去)混杂因子 Z 的值,该假设要求 Y_x 独立于(对象)实际接受的处理 X。意味着如果在混杂因子 Z 的任意一层,本该有潜在结果 Y_x = y 的病人与本该有不同的潜在结果 Y_x = y’ 的病人都有同样的可能被分配给处理组和对照组,并且这种指派是可忽略的

使用因果图判断可忽略性:以一组匹配变量 Z 为条件,要确定对于结果 Y 来说 X 是否是可忽略的,只需要测试 Z 是否阻断了 XY 之间所有的后门路径。同时,Z 的成员都不是 X 的后代即可。

反事实有助于辅助概率模型在面对循环模型方面的无力;将 Y 视为其父变量的函数,并用 U_Y 概括所有关于 Y 的不确定性的方法,可以帮助区分因果贝叶斯网络和概率贝叶斯网络。

结构因果模型和结构方程模型的重要的区别是:结构因果模型中的因果关系并不一定是线性的

如果由一个完全指定的结构因果模型,其表达的一张因果图且箭头背后所有的函数都是已知的,那么就可以回答任何反事实的问题。即使只有部分指定的结构因果模型,其中的一些变量是隐藏的或者其中一些剂量-响应关系是未知的,在许多情况下仍然可以回答反事实问题。

5. 反事实与法律

5.1 若非因果原则

“若非因果关系”:行为是导致结果的原因

  • 行为是一个先行项,若非它,结果就不会发生。评估的概率可以用 PN(probability of necessity)来表示,即必要性概率。值为 P(Y_{X=0}=0|X=1, Y=1)

do 表达式不能表达 PN,反事实的层级高于干预

5.2 近因原则

在某些情况下,由某一事件间接引入的其它事件会导致某一结果的发生,会导致 “若非因果关系” 在反事实中的不可靠;此时可以引入近因。

近因:结果不应 “离事件太遥远或者是事件的次要方面,以致与行为人的责任或罪行的严重性关系很小”。

目前而言,近因在法律中的判定留给了法官的直觉。作者认为近因是充分因的一种形式,即行为是否足以(有足够高的概率)导致死亡事件。

5.3 充分因

充分因,PS(probability of sufficiency)为 P(Y_{x=1}=1|X=0, Y=0)

5.4 案例:行刑队处死犯人

一组行刑队队员接到命令时都向犯人开枪,此时任意队员都并非处死犯人的必要因。

5.5 案例:火柴、氧气和火灾

案例:某人在充满氧气的房子里点燃火柴引发了火灾

逻辑考虑:

  • 假如该人没有划火柴,没有火灾
  • 假如房子内没有氧气,没有火灾

由于有氧气属于一种常态状态,所以大多数人会将原因归咎于点火柴的人。PSPN 测度可以有效的体现这一因素。

5.6 更多因素

实验:人们在 “撤销” 一个并非他们所期望的结果带来影响所选择的罪魁祸首。

在该试验中可以发现某种一致的模式:

  • 相比于选择一个普通事件,人们更可能想象一个罕见事件来撤销影响
  • 人们倾向于将结果归咎于自身的行为,而较少归咎于不受他们控制的事件

以上,根据自己构建的关于现实世界的模型估计 PNPS 的能力显示可能存在一种考量这些要素的系统方法,这就为我们最终教会机器人对特殊事件生成有意义的解释提供了可能。

6. 必要因、充分因和气候变化

案例:法国政府将上万人的死亡归咎于持续高温天气。

问题:他们究竟是全球变暖的受害者,还是在错误的时间生活在错误地方的不幸者呢?

6.1 可归因风险度(fraction of attributable risk)

气候学家普遍的观点类似 “尽管全球变暖的确有可能导致此类现象发生的更加频繁,但是不可能将这一特定事件完全归因于过去的温室气体排放”

可归因风险度(fraction of attributable risk),简称 FAR。FAR 要求掌握两个数值 :

  • $p_0$,即在全球气候变化之前类似这种持续高温天气出现的概率。
  • $P_1$,全球气候变化之后出现这种天气的概率。

FAR 并不直接代表因果关系。事实证明,在两个强度较低的因果假设下,FAR 与必要性概率是一致的:

  • 假设处理(温室气体)和结果(持续高温天气)之间没有混杂
  • 假设单调性,单调性意味着处理从未产生过与预期相反的效应,即温室气体永远不可能保证我们免受持续高温天气的袭击

在满足上述假设的条件下,FAR 就能从观察上升到反事实

6.2 更多观点

事件时间延长,必要因可能下降、充分因可能提升。

必要因和充分因之间的区别可能难以分辨。

计算机模拟有助于反事实研究,帮助为单纯的观察性研究带去实验性研究。计算机模拟隐藏着复杂的响应函数,它通常比简单的线性模型更加可靠。同样,气候模型反映了物理学家、气象学家和气候学家一个多世纪对于气候状况的研究和深刻理解,但是:虽然它们能有效地预测几天的天气,但并未在长时间中证实,仍然可能包含未知的系统性错误。

7. 反事实的世界

反事实是人类认识世界,认识人类行为如何影响世界的基本途径。我们永远无法走到森林中的所有岔路,但是我们能够带着某种程度的自信,确信某个岔路会走到哪里。

参与者处理效应(effect of treatment on the treated),ETT:这种效应用来评估获得处理的人是否能从该处理中受益最多。

许多情况下,这一测度由于对于处理有效性的常规测量 —— 平均因果效应(average causal effect),ACE。可以从随机对照实验中得到 ACE,它是整个总体的平均处理效应。

下一章介绍的中介效应,它的目的是将直接效应(未通过中介物中介)从间接效应(通过中介物介导)中解析出来。间接效应和直接效应都涉及反事实叙述。

Tagged with:

发表评论

电子邮件地址不会被公开。 必填项已用*标注

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据