VariationalBayes(变分贝叶斯)
变分贝叶斯学习算法通常也是变分贝叶斯期望最⼤(Variantional Bayesian Expectation Maximization)VBEM算法,是
⼴义化的EM算法
[关键词] 贝叶斯推断,平均场理论,变分估计,贝叶斯推断,KL散度,确定性估计
⼀、前⾔
上世纪90年代,变分推断在概率模型上得到迅速发展,在贝叶斯框架下⼀般的变分法由Attias的两篇⽂章给出。Matthew
的博⼠论⽂《Variational Algorithms for Approximate Bayesian Inference》中有⽐较充分地论述,作者将其应⽤于隐
马尔科夫模型,混合因⼦分析,线性动⼒学,图模型等。变分贝叶斯是⼀类⽤于贝叶斯估计和机器学习领域中近似计算复杂
(intractable)积分的技术。它主要应⽤于复杂的统计模型中,这种模型⼀般包括三类变量:观测变量(obrved variables,
data),未知参数(parameters)和潜变量(latent variables)。在贝叶斯推断中,参数和潜变量统称为不可观测变量
(unobrved variables)。变分贝叶斯⽅法主要是两个⽬的:
(1) 近似不可观测变量的后验概率,以便通过这些变量作出统计推断。
(2) 对⼀个特定的模型,给出观测变量的边缘似然函数(或称为证据,evidence)的下界。主要⽤于模型的选择,认为模型的边缘似然值越
⾼,则模型对数据拟合程度越好,该模型产⽣Data的概率也越⾼。
对于第⼀个⽬的,蒙特卡洛模拟,特别是⽤Gibbs取样的MCMC⽅法,可以近似计算复杂的后验分布,能很好地应⽤到贝叶斯统计推断。此
⽅法通过⼤量的样本估计真实的后验,因⽽近似结果带有⼀定的随机性。与此不同的是,变分贝叶斯⽅法提供⼀种局部最优,但具有确定解
的近似后验⽅法。
从某种⾓度看,变分贝叶斯可以看做是EM算法的扩展,因为它也是采⽤极⼤后验估计(MAP),即⽤单个最有可能的参数值来代替完全贝叶
斯估计。另外,变分贝叶斯也通过⼀组相互依然(mutually dependent)的等式进⾏不断的迭代来获得最优解。
⼆、问题描述
重新考虑⼀个问题:1)有⼀组观测数据 D ,并且已知模型的形式,求参数与潜变量(或不可观测变量) Z={Z1,...,Zn} 的后验分布:
P(Z|D) 。
正如上⽂所描述的后验概率的形式通常是很复杂(Intractable)的,对于⼀种算法如果不能在多项式时间内求解,往往不是我们所考虑的。因⽽
我们想能不能在误差允许的范围内,⽤更简单、容易理解(tractable)的数学形式 Q(Z) 来近似 P(Z|D) ,即 P(Z|D)≈Q(Z) 。
由此引出如下两个问题:
(1) 假设存在这样的 Q(Z) ,那么如何度量 Q(Z) 与 P(Z|D) 之间的差异性(dissimilarity)?
(2) 如何得到简单的 Q(Z) ?
对于问题⼀,幸运的是,我们不需要重新定义⼀个度量指标。在信息论中,已经存在描述两个随机分布之间距离的度量,即相对熵,或者称
为Kullback-Leibler散度。
对于问题⼆,显然我们可以⾃主决定 Q(Z) 的分布,只要它⾜够简单,且与 P(Z|D) 接近。然⽽不可能每次都⼿⼯给出⼀个与 P(Z|D) 接近且
简单的 Q(Z) ,其⽅法本⾝已经不具备可操作性。所以需要⼀种通⽤的形式帮助简化问题。那么数学形式复杂的原因是什么?在“模型的选
择”部分,曾提到Occam's razor,认为⼀个模型的参数个数越多,那么模型复杂的概率越⼤;此外,如果参数之间具有相互依赖关系(mutually
dependent),那么通常很难对参数的边缘概率精确求解。
幸运的是,统计物理学界很早就关注了⾼维概率函数与它的简单形式,并发展了平均场理论。简单讲就是:系统中个体的局部相互作⽤可以
产⽣宏观层⾯较为稳定的⾏为。于是我们可以作出后验条件独⽴(posterior independence)的假设。即, ∀i,p(Z|D)=p(Zi|D)p(Z−i|D)
三、Kullback-Leibler散度
在统计学中,相对熵对应的是似然⽐的对数期望,相对熵 D(p||q) 度量当真实分布为 p ⽽假定分布为 q 时的⽆效性。
定义 两个概率密度函数为 p(x) 和 q(x) 之间的相对熵定义为
KL散度有如下性质:
(1) DKL(p||q)≠DKL(q||p) ;
(2) DKL(p||q)≥0 ,当且仅当 p=q 时为零;
(3) 不满⾜三⾓不等式。
Q 分布与 P 分布的KL散度为:
DKL(Q||P)=∑ZQ(Z)logQ(Z)P(Z|D)=∑ZQ(Z)logQ(Z)P(Z,D)+logP(D)
或者
logP(D)=DKL(Q||P)−∑ZQ(Z)logQ(Z)P(Z,D)=DKL(Q||P)+L(Q)
由于对数证据 logP(D) 被相应的 Q 所固定,为了使KL散度最⼩,则只要极⼤化 L(Q) 。通过选择合适的 Q ,使 L(Q) 便于计算和求极值。这
样就可以得到后验 P(Z|D) 的近似解析表达式和证据(log evidence)的下界 L(Q) ,⼜称为变分⾃由能(variational free energy):
L(Q)=∑ZQ(Z)logP(Z,D)−∑ZQ(Z)logQ(Z)=EQ[logP(Z,D)]+H(Q)
四、平均场理论(Mean Field Method)
数学上说,平均场的适⽤范围只能是完全图,或者说系统结构是well-mixed,在这种情况下,系统中的任何⼀个个体以等可能接触其他个
体。反观物理,平均场与其说是⼀种⽅法,不如说是⼀种思想。其实统计物理的研究⽬的就是期望对宏观的热⼒学现象给予合理的微观理
论。物理学家坚信,即便不满⾜完全图的假设,但既然这种“局部”到“整体”的作⽤得以实现,那么个体之间的局部作⽤相较于“全局”的作⽤是
可以忽略不计的。
根据平均场理论,变分分布 Q(Z) 可以通过参数和潜在变量的划分(partition)因式分解,⽐如将 Z 划分为 Z1…ZM
Q(Z)=∏i=1Mq(Zi|D)
注意这⾥并⾮⼀个不可观测变量⼀个划分,⽽应该根据实际情况做决定。当然你也可以这么做,但是有时候,将⼏个潜变量放在⼀起会更容
易处理。
4.1 平均场⽅法的合理性
在量⼦多体问题中,⽤⼀个(单体)有效场来代替电⼦所受到的其他电⼦的库仑相互作⽤。这个有效场包含所有其他电受到的其他电⼦的库
仑相互作⽤。这个有效场包含了所有其他电⼦对该电⼦的相互作⽤。利⽤有效场取代电⼦之间的库仑相互作⽤之后,每⼀个电⼦在⼀个有效
场中运动,电⼦与电⼦之间的运动是独⽴的(除了需要考虑泡利不相容原理),原来的多体问题转化为单体问题。
同样在变分分布 Q(Z) 这个系统中,我们也可以将每⼀个潜变量划分看成是⼀个单体,其他划分对其的影响都可以⽤⼀个看做是其⾃⾝的作
⽤。采⽤的办法是迭代(Iterative VB(IVB) algorithm)。这是由于当变分⾃由能取得最⼤值的时候,划分 Zi 与它的互斥集 Z−i (或者更进⼀步,
马尔科夫毯(Markov blanket), mb(Zi)) 具有⼀个简单的关系:
Q(Zi)∝1Cexp⟨lnP(Zi,Z−i,D)⟩Q(Z−i)orQ(mb(Zi))
(为保持⽂章的连贯性,此处先不证明,下⽂将详细说明)
于是,对于某个划分 Zi ,我们可以先保持其他划分 Z−i 不变,然后⽤以上关系式更新 Zi 。相同步骤应⽤于其他划分的更新,使得每个划分之
间充分相互作⽤,最终达到稳定值。
具体更新边缘概率(VB-marginal)步骤如下:
(1) 初始化 Q(0)(Zi) ,可随机取;
(2) 在第k步,计算 Z−i 的边缘密度 Q[k](Z−i|D)∝exp∫Z∗iQ[k−1](Zi|D)logP(Zi,Z−i,D)dZi
(3) 计算 Zi 的边缘密度 Q[k](Zi|D)∝exp∫Z∗−iQ[k](Z−i|D)logP(Zi,Z−i,D)dZ−i
(4) 理论上 Q[∞](Zi|D) 将会收敛,则反复执⾏(2), (3)直到 Q(Zi) , Q(Z−i) 稳定,或稳定在某个⼩范围内。
(5) 最后,得 Q(Z)=Q(Zi|D)Q(Z−i|D)
4.2 平均场估计下边缘概率的⽆意义性(VB-marginals)
注意到 Q(Z) 估计的是联合概率密度,⽽对于每⼀个 Qi(Zi) ,其与真实的边缘概率密度 Pi(Zi) 的差别可能是很⼤的。不应该⽤ Qi(Zi) 来估计
真实的边缘密度,⽐如在⼀个贝叶斯⽹络中,你不应该⽤它来推测某个节点的状态。⽽这其实是很糟糕的,相⽐于其他能够使⽤节点状态信
息来进⾏局部推测的算法,变分贝叶斯⽅法更不利于调试。
⽐如⼀个标准的⾼斯联合分布 P(µ,x) 和最优的平均场⾼斯估计 Q(µ,x) 。 Q 选择了在它⾃⼰作⽤域中的⾼斯分布,因⽽变得很窄。此时边缘
密度 Qx(x) 变得⾮常⼩,完全与 Px(x) 不同。
五、边缘密度(VB-marginal)公式的推导
上⽂已经提到我们要找到⼀个更加简单的函数 D(Z) 来近似 P(Z|D) ,同时问题转化为求解证据 logP(Z) 的下界 L(Q) ,或者 L(Q(Z)) 。应该注
意到 L(Q) 并⾮普通的函数,⽽是以整个函数为⾃变量的函数,这便是泛函。我们先介绍⼀下什么是泛函,以及泛函取得极值的必要条件。
5.1 泛函的概念
【泛函】设对于(某⼀函数集合内的)任意⼀个函数 y(x) ,有另⼀个数 J[y] 与之对应,则称 J[y] 为 y(x) 的泛函。泛函可以看成是函数概念的推
⼴。这⾥的函数集合,即泛函的定义域,通常要求 y(x) 满⾜⼀定的边界条件,并且具有连续的⼆阶导数.这样的 y(x) 称为可取函数。
泛函不同于复合函数,例如 g=g(f(x)) ; 对于后者,给定⼀个 x 值,仍然是有⼀个 g 值与之对应;对于前者,则必须给出某⼀区间上的函数
y(x) ,才能得到⼀个泛函值 J[y] 。(定义在同⼀区间上的)函数不同,泛函值当然不同,为了强调泛函值 J[y] 与函数 y(x) 之间的依赖关系,常
常⼜把函数 y(x) 称为变量函数。
泛函的形式多种多样,通常可以积分形式: J[y]=∫x1x0F(x,y,y′)dx
5.2 泛函取极值的必要条件
泛函的极值
“当变量函数为 y(x) 时,泛函 J[y] 取极⼤值”的含义就是:对于极值函数 y(x) 及其“附近”的变量函数 y(x)+δy(x) ,恒有 J[y+δy]≤J[y] ;
所谓函数 y(x)+δy(x) 在另⼀个函数 y(x) 的“附近”,指的是:
1. |δy(x)|<ε ;
2. 有时还要求 |(δy)′(x)|<ε .
这⾥的 δy(x) 称为函数 y(x) 的变分。
Euler–Lagrange⽅程
可以仿造函数极值必要条件的导出办法,导出泛函取极值的必要条件,这⾥不做严格的证明,直接给出。泛函 J[y] 取到极⼤值的必要条件是
⼀级变分 δJ[y] 为0,其微分形式⼀般为⼆阶常微分⽅程,即Euler-Largange⽅程:
∂F∂y−ddx∂F∂y′=0
泛函的条件极值
在约束条件 下求函数 J[y] 的极值,可以引⼊Largange乘⼦ λ ,从⽽定义⼀个新的泛函, J~[y]=J[y]−λJ0[y] 。仍将 δy 看成是独⽴的,则泛函
J~[y] 在边界条件下取极值的必要条件就是,
(∂∂y−ddx∂∂y′)(F−λG)=0
5.3 问题求解
对于 L(Q(Z))=EQ(Z)[lnP(Z,D)]+H(Q(Z)) ,将右式第⼀项定义为能量(Energy),第⼆项看做是信息熵(Shannon entropy)。我们只考虑⾃然对数
的形式,因为对于任何底数的对数总是可以通过换底公式将其写成⾃然对数与⼀个常量的乘积形式。另外根据平均场假设可以得到如下积分
形式,
L(Q(Z))=∫(∏iQi(Zi))lnP(Z,D)dZ−∫(∏kQk(Zk))∑ilnQi(Zi)dZ
其中 Q(Z)=∏iQi(Zi) ,且满⾜ ∀i.∫Qi(Zi)dZi=1
考虑划分 Z={Zi,Z−i} ,其中 Z−i=Z∖Zi ,先考虑能量项(Energy)(第⼀项),
EQ(Z)[lnP(Z,D)]=∫(∏iQi(Zi))lnP(Z,D)dZ
=∫Qi(Zi)dZi∫Q−i(Z−i)lnP(Z,D)dZ−i
=∫Qi(Zi)⟨lnP(Z,D)⟩Q−i(Z−i)dZi
=∫Qi(Zi)lnexp⟨lnP(Z,D)⟩Q−i(Z−i)dZi
=∫Qi(Zi)lnQ∗i(Zi)dZi+lnC
其中定义 Q∗i(Zi)=1Cexp⟨lnP(Z,D)⟩Q−i(Z−i) , C 为的归⼀化常数。再考虑熵量(entropy)(第⼆项),
H(Q(Z))=−∑i∫(∏kQk(Zk))lnQi(Zi)dZ
=−∑i∫∫Qi(Zi)Q−i(Z−i)lnQi(Zi)dZidZ−i
=−∑i⟨∫Qi(Zi)lnQi(Zi)dZi⟩Q−i(Z−i)
=−∑i∫Qi(Zi)lnQi(Zi)dZi
此时得到泛函,
L(Q(Z))=∫Qi(Zi)lnQ∗i(Zi)dZi−∑i∫Qi(Zi)lnQi(Zi)dZi+lnC
=(∫Qi(Zi)lnQ∗i(Zi)dZi−∫Qi(Zi)lnQi(Zi)dZi)−∑k≠i∫Qk(Zk)lnQk(Zk)dZk+lnC
=∫Qi(Zi)lnQ∗i(Zi)Qi(Zi)dZi−∑k≠i∫Qk(Zk)lnQk(Zk)dZk+lnC
=−DKL(Qi(Zi)||Q∗i(Zi))+H[Q−i(Z−i)]+lnC
注意到 L(Q(Z)) 并⾮只有⼀个等式,如果不可观测变量有M个划分。那么将有M个⽅程。为了使得 L(Q(Z)) 达到最⼤值,同时注意到约束条
件,根据泛函求条件极值的必要条件,得,
∀i.∂∂Qi(Zi){−DKL[Qi(Zi)||Q∗i(Zi)]−λi(∫Qi(Zi)dZi−1)}:=0
直接求解将得到Gibbs分布,略显复杂;实际上,注意到KL散度,我们可以直接得到KL散度等于0的时候, L(D) 达到最⼤值,最终得到
Qi(Zi)=Q∗i(Zi)=1Cexp⟨lnP(Zi,Z−i,D)⟩Q−i(Z−i)
C 为归⼀化常数 C=∫exp⟨ln(Zi,Z−i,D)⟩Q−i(Z−i)dZ−i , Q(Zi) 为联合概率函数在除 Zi 本⾝外的其他划分下的对数期望。⼜可以写为
lnQi(Zi)=⟨lnP(Zi,Z−i,D)⟩Q−i(Z−i)+const
参考⽂献
[1] Smídl, Václav, and Anthony Quinn. The variational Bayes method in signal processing. Springer, 2006.
[2] Beal, Matthew James. Variational algorithms for approximate Bayesian inference. Diss. University of London, 2003.
[3] Fox, Charles W., and Stephen J. Roberts. "A tutorial on variational Bayesian inference." Artificial Intelligence Review 38.2 (2012): 85-
95.
[4] Attias, Hagai. "Inferring parameters and structure of latent variable models by variational Bayes." Proceedings of the Fifteenth
conference on Uncertainty in artificial intelligence. Morgan Kaufmann Publishers Inc., 1999.
[5] Attias, Hagai. "A variational Bayesian framework for graphical models."Advances in neural information processing systems 12.1-2
(2000): 209-215.
本文发布于:2023-10-27 06:38:34,感谢您对本站的认可!
本文链接:https://www.wtabcd.cn/zhishi/a/88/25059.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文word下载地址:VariationalBayes(变分贝叶斯).doc
本文 PDF 下载地址:VariationalBayes(变分贝叶斯).pdf
| 留言与评论(共有 0 条评论) |