Перекрёстная энтропия

12.09.2023

В теории информации перекрёстная энтропия между двумя распределениями вероятностей измеряет среднее число бит, необходимых для опознания события из набора возможностей, если используемая схема кодирования базируется на заданном распределении вероятностей q {displaystyle q} , вместо «истинного» распределения p {displaystyle p} .

Перекрестная энтропия для двух распределений p {displaystyle p} и q {displaystyle q} над одним и тем же вероятностным пространством определяется следующим образом:

H ( p , q ) = d f E p [ − log ⁡ q ] = H ( p ) + D K L ( p ‖ q ) {displaystyle mathrm {H} (p,q){stackrel {mathrm {df} }{;=;}}mathrm {E} _{p}[-log q]=mathrm {H} (p)+D_{mathrm {KL} }(p|q)} ,

где H ( p ) {displaystyle H(p)} — энтропия p {displaystyle p} , и D K L ( p | | q ) {displaystyle D_{mathrm {KL} }(p||q)} — расстояние Кульбака—Лейблера от p {displaystyle p} до q {displaystyle q} (также известная как относительная энтропия).

Для дискретного p {displaystyle p} и q {displaystyle q} это означает

H ( p , q ) = − ∑ x p ( x ) log ⁡ q ( x ) . {displaystyle mathrm {H} (p,q)=-sum _{x}p(x),log q(x).}

Ситуация для непрерывного распределения аналогична:

H ( p , q ) = − ∫ X p ( x ) log ⁡ q ( x ) d x . {displaystyle mathrm {H} (p,q)=-int limits _{X}p(x),log q(x),dx.}

Нужно учесть, что, несмотря на формальную аналогию функционалов для непрерывного и дискретного случаев, они обладают разными свойствами и имеют разный смысл. Непрерывный случай имеет ту же специфику, что и понятие дифференциальной энтропии.

NB: Запись H ( p , q ) {displaystyle mathrm {H} (p,q)} иногда используется как для перекрёстной энтропии, так и для совместной энтропии p {displaystyle p} и q {displaystyle q} .

Минимизация перекрёстной энтропии

Минимизация перекрёстной энтропии часто используется в оптимизации и для оценки вероятностей редких событий.




Имя:*
E-Mail:
Комментарий: