    d-separation和d-connection中的d是dependence的意思,指依赖性。如果两个变量或变量集X, Y可以被有向图中的一组变量Z d-separated,则X,Y在该图可以表达的所有概率分布以Z为独立条件。换句话说,就是一旦你了解了Z,那么你对X的了解就不会再给你任何多的有关Y的信息,那么X, Y则是基于Z独立的。

    如果一条路径携带信息,或者存在依赖性,则认为这条路径是活的(active)。一个图中,变量X,Y可能经过多条路径相连,其中可能有路径是活的,也可能没有,如果有,那么X和Y则是d-connected。如果X和Y是d-separated, 那表示连接这两个变量的所有路径都不是活的。

    怎么样的路径是活的呢?路径上的所有变量(点, 不包括首尾顶点)和路径(边)是活的。路径和路径上的变量是否是活的是基于一组变量的集合Z的。让我们先考虑Z为空的情况,两个变量A, B经过一个变量C有以下几种方式:

1) A –> C –> B 2) A <– C <– B 3) A <– C –> B

4) A –> C <– B





    现在考虑条件集不为空的情况。现在我们重新考虑上面四个路径,只是这次要解的问题是,A和B是否被C d-separated。C为条件集,我们要考虑的即,当C的值确定时,A和B之间是否会存在相关关系或者依赖关系。在头三条路径中,当条件集为空时,C是活的,那么现在C则是死的。即当C的值确定时,你再知道B的值,对解出A毫无帮助,反之亦然。Reichenbach称其为”Principle of the Common Cause”,Markov则形容它为,已知的当下分开了过去和未来,让未来不再依赖过去。

    第四条路径中,C是碰撞体,因此在条件集为空时是无效的,现在则是有效的。我们可以这样来看这个问题,如果C的值被确定了,那么必然是A或者B或者它们两个同时造成C这样的结果,如果此时你知道A的值,发现C的结果不是A造成的,或不单单是A造成的,那么就可以推理出B多多少少造成了C现在这样的结果。所以获得A的信息的同时也获得了B的信息。这里有一个Pearl (1988)举的例子,如果一辆车无法发动,那么可能是引擎坏了或者油耗尽了,因此有下面的因果关系:

​ dead battery –> car won’t start <– no gas


    D-connection则可定义为:如果G是一个有向图,在图中X, Y和Z是三个没有交集的顶点的集合。当且仅当存在一条无向路径U,连接了集合X和Y中的某些结点,U中所有的碰撞体或者其后代在Z中,没有非碰撞体在Z中,则可称之为X和Y在G图中被Z d-connected。X和Y在G图中被Z d-separated当且仅当X和Y在G图中没有被Z d-connected。






声明:所有图片均来自Jonas Peters的课件,没有原创图片。


[1] Jonas Peters, University of Copenhagen, Mini course on Causality, Laboratory for Information & Decision Systems (LIDS) and Models, Inference & Algorithms of the Broad Institute, MIT, 2017

[2] https://www.andrew.cmu.edu/user/scheines/tutor/d-sep.html

