type
Post
status
Published
date
Jun 11, 2026
slug
summary
tags
category
category (1)
icon
password
comment

KL散度的作用

衡量两个变脸的概率分布的不相似程度
:表示P分布与Q分布一模一样 :表示P分布与Q分布的“差距”是10
KL散度越大,表示从一个分布到另一个分布的差距就越大,信息损失就越多

数学定义

离散分布
连续分布
其中P(X)和Q(x)分别表示真实分布和近似分布,含义是用分布Q接近分布P所“付出的代价”和“信息损失”
在P的高概率区域差异被放大,在P的低概率区域差异被抑制

关键特性

1、非负性:KL散度总是,当且仅当P=Q是等于0
函数的均值 <= 均值的函数 凸函数(convex)
琴生(Jensen)不等式
对数函数的性质
从而 ,也就是
当且仅当 为常数时,即 ,等号成立。
2、可加性:多维分布到KL散度可以分解为各维度的累加
3、不对称性:用Q逼近P和P逼近Q的“代价”不同

不对称性的深入解释

正向KL——模式覆盖
用Q近似P 生成模型常用
重点惩罚:P有但Q没有的位置
不会惩罚:Q在一些P几乎没有的区域有概率
结果:鼓励Q覆盖所有可能的P区域
反向KL——模式寻找
用P解释Q 分类问题或策略优化常用
重点惩罚:Q有但P没有的位置
不会惩罚:Q漏掉了P的某些模式
结果:鼓励Q精准地匹配P的高概率区域

参考资料

自编码器(AE)与变分自编码器(VAE)的区别HTB Kobold
Loading...