MIT因果迷你课笔记 —— 因果归纳模型的评估方式(SHD和SID)

Luna
Written by Luna on

系列首篇:MIT因果迷你课笔记 —— 相关和因果

上篇:MIT因果迷你课笔记 —— 发现因果关系3(多变量)

如何评估因果模型?

    如何评估你的因果归纳模型?这个问题转换一下可以是如何比较两个因果关系图,再数学一点,就是如何定义两个图的距离。

    这和因果关系要应用的场景,领域,以及该因果关系的特质都有关系,实际上是一个非常复杂又多变的问题。

    下面讨论两种可以应用于一般场景的方法:

    1. Structural Hamming Distance (SHD)

    PDAG指的是部分有向无环图,即不一定所有边都是有向的。P指的是由p个变量的所有有向无环图构成的图域。那么任意两个图的SHD是指两个图不一致的边的数量。#在这里是数量的意思。任意两个变量之间的边有三种:i和j之间没有任何关联,i->j,和j->i。

    比如下面三张图:

    就有:

    2. Structural Intervention Distance (SID)

    这个概念有点难理解,首先得理解分布的马可夫性,这里只列一下定义,详细可以参考MIT因果迷你课笔记 —— 发现因果关系1,分布的马可夫性有三种定义方式:

    这是基于D-separation,d-connection的定义,要理解可能要详细看一下D-separation的概念。为什么用Markov呢,Markov形容d-separation为,已知的当下分开了过去和未来,让未来不再依赖过去。

    我们认为分布P基于图G是Markov的,如果XiXj在图G中被S d-separated能推导出XiXj|S。这里我们用⊥代替图中的独立符号,因为图中的独立符号在这里打不出来。

     另外,马可夫状态还有其他两种定义方式:

    其中Y是一组变量的集合,PA(X)指X的所有的父变量的集合,ND(X)指除了X变量和其后裔变量之外的所有变量的集合。下面这种是基于分解的定义方式:

    这几种定义方式是等价的。

    

    干预分布(intervention distribution)

    当分布具有马可夫性时,下面这个公式表现的是对Xi的值进行干预后的概率分布函数,do表示干预这个动作:

    那么干预对单个结点的影响又如何表达:

    如果Y是X的父节点,那么干预X对Y不会造成任何影响,而如果Y不是X的父节点,那么干预X之后,Y的分布则会因X的值还有X的父节点调整。

    举个例子,在图b中,干预y2的值,会对y3造成什么影响呢?y3不是y2的父节点,计算如下:

    根据推导可知,在a图和b图中,干预y2对y3的影响是一致的。而如果你仔细计算每一个干预分布会发现,图G和图H1所有的干预分布都是一致的,但是图G和H2的干预分布有8个不一致:

    显而易见,SID统计的是两个图干预分布不一致的个数。

    SID完整的定义如下:

    首先定义了correctly and falsely inferred intervention distributions,干预分布的一致性和不一致。再根据falsely inferred intervention distributions的定义定义了SID。

    为什么设计SID这么一个度量标准,这和因果推断的这个课题本身的特质是有关系的,有些因果错了并不会对整体推断带来大的影响,但有些会,如果有具体的场景,可能又要结合具体的场景设计评估方式,详细可以参考[2]。另外定义SID的方式有很多种,还有一种基于valid adjustment set的方式:

下面定义了判断valid adjustment sets的方式:

    用valid adjustment sets定义SID的概念如下:

    DE对照PA,指的是子节点。

    下面做了一些实验,设定结点的数量,随机生成一些有向无环图组,计算它们的SHD和SID值,可以发现,图和图之间的SHD和SID值区别是很大的,也就是说SHD和SID是完全不同的评量标准。  

    下面两幅图,分别用SID和SHD评估了一些因果推断的方法,可以发现,有些在SHD标准下优于随机推断的方式,在SID标准下和随机推断相比,毫无优势。

    觉得有帮助到你的话,右下角帮忙点个“在看”哇。

系列首篇:MIT因果迷你课笔记 —— 相关和因果

上篇:MIT因果迷你课笔记 —— 发现因果关系3(多变量)

记:公式上上下下有不匹配的地方,因为截自不同的参考文献,所以写法会有出入,打公式太累了,我放过了自己。

声明:所有图片均来自参考,没有原创图片,公式和定理。

参考:

[1] Jonas Peters, University of Copenhagen, Mini-course on Causality, Laboratory for Information & Decision Systems (LIDS) and Models, Inference & Algorithms of the Broad Institute, MIT, 2017

[2] Jonas Peters, Peter Buhlmann, Structural Intervention Distance for Evaluating Causal Graphs, Neural Computation, 2015

Comments

comments powered by Disqus