Перекрёстная энтропия
В теории информации перекрёстная энтропия между двумя распределениями вероятностей измеряет среднее число бит, необходимых для опознания события из набора возможностей, если используемая схема кодирования базируется на заданном распределении вероятностей q {displaystyle q} , вместо «истинного» распределения p {displaystyle p} .
Перекрестная энтропия для двух распределений p {displaystyle p} и q {displaystyle q} над одним и тем же вероятностным пространством определяется следующим образом:
H ( p , q ) = d f E p [ − log q ] = H ( p ) + D K L ( p ‖ q ) {displaystyle mathrm {H} (p,q){stackrel {mathrm {df} }{;=;}}mathrm {E} _{p}[-log q]=mathrm {H} (p)+D_{mathrm {KL} }(p|q)} ,где H ( p ) {displaystyle H(p)} — энтропия p {displaystyle p} , и D K L ( p | | q ) {displaystyle D_{mathrm {KL} }(p||q)} — расстояние Кульбака—Лейблера от p {displaystyle p} до q {displaystyle q} (также известная как относительная энтропия).
Для дискретного p {displaystyle p} и q {displaystyle q} это означает
H ( p , q ) = − ∑ x p ( x ) log q ( x ) . {displaystyle mathrm {H} (p,q)=-sum _{x}p(x),log q(x).}Ситуация для непрерывного распределения аналогична:
H ( p , q ) = − ∫ X p ( x ) log q ( x ) d x . {displaystyle mathrm {H} (p,q)=-int limits _{X}p(x),log q(x),dx.}Нужно учесть, что, несмотря на формальную аналогию функционалов для непрерывного и дискретного случаев, они обладают разными свойствами и имеют разный смысл. Непрерывный случай имеет ту же специфику, что и понятие дифференциальной энтропии.
NB: Запись H ( p , q ) {displaystyle mathrm {H} (p,q)} иногда используется как для перекрёстной энтропии, так и для совместной энтропии p {displaystyle p} и q {displaystyle q} .
Минимизация перекрёстной энтропии
Минимизация перекрёстной энтропии часто используется в оптимизации и для оценки вероятностей редких событий.