设为首页 - 加入收藏
当前位置:主页 > 365bet备用官网 > 正文

KL友谊分歧,交叉熵和最大概率。

时间:2019-03-28 13:34 来源:互联网 作者:网络中心 阅读:

信息论的前体
信息理论的研究内容是量化信号中包含的信息量。
所用的定量指示剂优选满足两个条件。
(1)事件发生的可能性越小,包含的信息就越多。
(2)独立事件具有增量信息(即,对于多个独立事件同时生成的信息量等于每个信息量的总和)。
遵循先前的原则,用于定义事件的自我信息$ \ mathsf{x}= x $是$$ I(x)= - \ logp(x)$$如果日志的下半部分是e,则单位为nat。下面是2。单位有点或香农。
香农熵用于量化整体概率分布中变量的不确定性。$$ H(\ mathsf{x})= E _{\ mathsf{x}\ simP}[I(x)]= -E _{\ mathsf{x}\ simP}[\ logP(x)]$$Shannon熵的含义是满足$ p $分布的事件生成的预期信息的总量。
第二
KL分歧(Kullback-LeiblerDivergence)
如果随机变量$ \ mathsf{x}$有两个可能的分布$ P(\ mathsf{x})$和$ Q(\ mathsf{x})$,那么KL分歧来衡量这两个分布你可以用$$ \ begin{align *}D_{KL}(P || Q)= E _{\ mathsf{x}\ simP}\ left[\ log \ frac{P(x)}{Q(KL分支是不要做x。}\ right = \ \ = E _{\ mathsf{x}\ simP}\ left[\ logP(x) - \ logQ(x)\ right]\ end{align *}with $$ P只有当Q具有相同的分布时,KL的偏差才为零。
如果你有一个$ p(x)$分布并且你想使用另一个$ q(x)$近似分布,你可以选择最小化两者之间KL的分歧。
但要注意$ D_{KL}(p || q)
eqD_{KL}(q || p)$,首先表示选择q使q具有高概率。这里,p的概率很高。后者意味着如果概率低,则q被选择为低。

交叉熵
交叉熵定义如下。
$$ \ begin{align *}H(P,Q)= H(P)+ D_{KL}(P || Q)\\ = -E _{\ mathsf{x}\ simP}\ logQ(x)\ Fin{align *}$$
最小化Q的交叉熵与最小化KL的分歧相同,因为$ H(P)$独立于Q.

最大似然估计
假设您有一个m个样本的数据集,这些样本由未知的实际数据分布$ p_{data}(x)$独立生成。
设$ p_{model}(x; \ theta)$是由$ \ theta $确定的概率分布,并将$ p_{model}(x; \ theta)$映射到任何输入$ x $到实数。估计真实概率。$ P_{data}(x)$。
也就是说,给定$ \ theta $,我们得到数据的完整概率分布,并且我们可以计算观察采样的概率,即$ L(\ theta)$的概率。
如果$ \ theta $计算的样本可能性太低,则需要更改$ \ theta $的集合。
最大概率估计是选择$ \ theta $的集合,以便样本尽可能高。
$$ \ begin{align *}\ theta_{ML}= \ mathop{\ arg \ min}_{\ theta}p_{model}(x; \ theta)\ \ = \ mathop{\ arg \ min}_{\ theta}\ prod_{i = 1}^{m}p_{model}(x ^{(j)}; \ theta)\ end{align *}$$
日志通常转换为摘要形式,因为多个概率的乘积可能导致数值数据的流动。
$$ \ begin{equation}\ theta_{ML}= \ mathop{\ arg \ min}_{\ theta}\ sum_{i = 1}^ m \ logp_{model}(x ^{(i)}; \Theta)\ end{Equation}$$
V.
MLE - 吉隆坡 - CE
从$$ E到{_ \ mathsf{x}\ simp_{data}}[\ logp_{model}(x)]= \ sum_{i = 1}^{m}p_{data}\ cdot \ logp_{model}(x的最大似然估计)$$可以缩放以表示与训练数据的经验分布相关的预期值\ mathop{\ arg \ min}_{\ theta}E \{\ mathsf{x}\ simp_{data}}\ logp_{model}(x ^{(i)}; \ theta)\ end{Equation}$ estimate是经验分布$ p_{data}$和训练集它可以被视为最小化熵的模型分布之间的差异,即两者之间的KL分歧的差异。$$ D_{KL}(p_{data}|| P_{model})= E _{\ mathsf{x}\ simp_{data}}\ left[\ logp_{data}- \ logp_{model}(x)\ right]$$ KL在发散和最小化分布之间的等效交叉熵$$ - E _{\ _数学运算{x}\ simp_{数据}}[\ logp_{model}(x)]$$

(责任编辑:admin)

上一篇:不知道分享IB意味着什么?
下一篇:没有了
推荐内容