Quantidades de informação - Quantities of information

Um diagrama de informações enganosas mostrando relações aditivas e subtrativas entre as quantidades básicas de informações de Shannon para variáveis correlacionadas e . A área contida por ambos os círculos é a entropia conjunta . O círculo à esquerda (vermelho e violeta) é a entropia individual , com o vermelho sendo a entropia condicional . O círculo à direita (azul e violeta) é , com o ser azul . O violeta é a informação mútua .

{\ displaystyle X}

{\ displaystyle Y}

{\ displaystyle \ mathrm {H} (X, Y)}

{\ displaystyle \ mathrm {H} (X)}

{\ displaystyle \ mathrm {H} (X | Y)}

{\ displaystyle \ mathrm {H} (Y)}

{\ displaystyle \ mathrm {H} (Y | X)}

{\ displaystyle \ operatorname {I} (X; Y)}

A teoria matemática da informação é baseada na teoria da probabilidade e estatística e mede a informação com várias quantidades de informação . A escolha da base logarítmica nas fórmulas a seguir determina a unidade de entropia da informação que é usada. A unidade de informação mais comum é o bit , com base no logaritmo binário . Outras unidades incluem o nat , baseado no logaritmo natural , e o hartley , baseado na base 10 ou logaritmo comum .

A seguir, uma expressão da forma é considerada por convenção igual a zero sempre que for zero. Isso se justifica porque, para qualquer base logarítmica. ${\ displaystyle p \ log p \,}$ ${\ displaystyle p}$ ${\ displaystyle \ lim _ {p \ rightarrow 0+} p \ log p = 0}$

Auto-informação

Shannon derivou uma medida do conteúdo da informação chamado de auto-informação ou "surprisal" de uma mensagem : ${\ displaystyle m}$

{\ displaystyle \ operatorname {I} (m) = \ log \ left ({\ frac {1} {p (m)}} \ right) = - \ log (p (m)) \,}

onde é a probabilidade de que a mensagem seja escolhida entre todas as opções possíveis no espaço da mensagem . A base do logaritmo afeta apenas um fator de escala e, conseqüentemente, as unidades em que o conteúdo da informação medida é expressa. Se o logaritmo for de base 2, a medida da informação é expressa em unidades de bits . ${\ displaystyle p (m) = \ mathrm {Pr} (M = m)}$ ${\ displaystyle m}$ ${\ displaystyle M}$

As informações são transferidas de uma fonte para um destinatário apenas se o destinatário das informações ainda não as tiver. Mensagens que transmitem informações que certamente acontecerão e já conhecidas pelo destinatário não contêm informações reais. As mensagens que ocorrem com pouca frequência contêm mais informações do que as mensagens que ocorrem com mais frequência. Este fato é refletido na equação acima - uma certa mensagem, ou seja, de probabilidade 1, tem uma medida de informação de zero. Além disso, uma mensagem composta de duas (ou mais) mensagens não relacionadas (ou mutuamente independentes) teria uma quantidade de informações que é a soma das medidas de informações de cada mensagem individualmente. Esse fato também se reflete na equação acima, suportando a validade de sua derivação.

Um exemplo: A transmissão da previsão do tempo é: "Previsão de hoje à noite: Escuro. Escuridão contínua até a luz difusa da manhã." Esta mensagem quase não contém informações. No entanto, a previsão de uma tempestade de neve certamente conteria informações, já que isso não acontece todas as noites. Haveria uma quantidade ainda maior de informações em uma previsão precisa de neve para um local quente, como Miami . A quantidade de informações em uma previsão de neve para um local onde nunca neva (evento impossível) é a maior (infinito).

Entropia

A entropia de um espaço de mensagem discreto é uma medida da quantidade de incerteza que se tem sobre qual mensagem será escolhida. É definido como a auto-informação média de uma mensagem desse espaço de mensagem: ${\ displaystyle M}$ ${\ displaystyle m}$

{\ displaystyle \ mathrm {H} (M) = \ mathbb {E} \ left [\ operatorname {I} (M) \ right] = \ sum _ {m \ in M} p (m) \ operatorname {I} (m) = - \ sum _ {m \ in M} p (m) \ log p (m).}

Onde

{\ displaystyle \ mathbb {E} [-]}

denota a operação de valor esperado .

Uma propriedade importante da entropia é que ela é maximizada quando todas as mensagens no espaço da mensagem são equiprováveis (por exemplo ). Neste caso . ${\ displaystyle p (m) = 1 / | M |}$ ${\ displaystyle \ mathrm {H} (M) = \ log | M |}$

Às vezes, a função é expressa em termos das probabilidades da distribuição: ${\ displaystyle \ mathrm {H}}$

{\ displaystyle \ mathrm {H} (p_ {1}, p_ {2}, \ ldots, p_ {k}) = - \ sum _ {i = 1} ^ {k} p_ {i} \ log p_ {i },}

onde cada um e

{\ displaystyle p_ {i} \ geq 0}

{\ displaystyle \ sum _ {i = 1} ^ {k} p_ {i} = 1.}

Um caso especial importante disso é a função de entropia binária :

{\ displaystyle \ mathrm {H} _ {\ mbox {b}} (p) = \ mathrm {H} (p, 1-p) = - p \ log p- (1-p) \ log (1-p ). \,}

Entropia conjunta

A entropia conjunta de duas variáveis aleatórias discretas e é definida como a entropia da distribuição conjunta de e : ${\ displaystyle X}$ ${\ displaystyle Y}$ ${\ displaystyle X}$ ${\ displaystyle Y}$

{\ displaystyle \ mathrm {H} (X, Y) = \ mathbb {E} _ {X, Y} \ left [- \ log p (x, y) \ right] = - \ sum _ {x, y} p (x, y) \ log p (x, y) \,}

Se e forem independentes , então a entropia conjunta é simplesmente a soma de suas entropias individuais. ${\ displaystyle X}$ ${\ displaystyle Y}$

(Nota: A entropia conjunta não deve ser confundida com a entropia cruzada , apesar de notações semelhantes.)

Entropia condicional (equívoco)

Dado um determinado valor de uma variável aleatória , a entropia condicional de dado é definida como: ${\ displaystyle Y}$ ${\ displaystyle X}$ ${\ displaystyle Y = y}$

{\ displaystyle \ mathrm {H} (X | y) = \ mathbb {E} _ {\ left [X | Y \ right]} [- \ log p (x | y)] = - \ sum _ {x \ em X} p (x | y) \ log p (x | y)}

onde é a probabilidade condicional de dado . ${\ displaystyle p (x | y) = {\ frac {p (x, y)} {p (y)}}}$ ${\ displaystyle x}$ ${\ displaystyle y}$

A entropia condicional de dado , também chamada de equívoco de cerca, é então dada por: ${\ displaystyle X}$ ${\ displaystyle Y}$ ${\ displaystyle X}$ ${\ displaystyle Y}$

{\ displaystyle \ mathrm {H} (X | Y) = \ mathbb {E} _ {Y} \ left [\ mathrm {H} \ left (X | y \ right) \ right] = - \ sum _ {y \ in Y} p (y) \ sum _ {x \ in X} p (x | y) \ log p (x | y) = \ sum _ {x, y} p (x, y) \ log {\ frac {p (y)} {p (x, y)}}.}

Isso usa a expectativa condicional da teoria da probabilidade.

Uma propriedade básica da entropia condicional é:

{\ displaystyle \ mathrm {H} (X | Y) = \ mathrm {H} (X, Y) - \ mathrm {H} (Y). \,}

Divergência de Kullback-Leibler (ganho de informação)

A divergência de Kullback-Leibler (ou divergência de informação , ganho de informação ou entropia relativa ) é uma maneira de comparar duas distribuições, uma distribuição de probabilidade "verdadeira" e uma distribuição de probabilidade arbitrária . Se comprimirmos os dados de uma maneira que pressupõe a distribuição subjacente a alguns dados, quando, na realidade, é a distribuição correta, a divergência de Kullback-Leibler é o número de bits adicionais médios por dado necessário para compressão, ou, matematicamente, ${\ displaystyle p}$ ${\ displaystyle q}$ ${\ displaystyle q}$ ${\ displaystyle p}$

{\ displaystyle D _ {\ mathrm {KL}} {\ bigl (} p (X) \ | q (X) {\ bigr)} = \ sum _ {x \ in X} p (x) \ log {\ frac {p (x)} {q (x)}}.}

Em certo sentido, é a "distância" de para , embora não seja uma métrica verdadeira por não ser simétrica. ${\ displaystyle q}$ ${\ displaystyle p}$

Informação mútua (transinformação)

Acontece que uma das medidas de informação mais úteis e importantes é a informação mútua , ou transinformação . Esta é uma medida de quanta informação pode ser obtida sobre uma variável aleatória observando outra. A informação mútua de relativo a (que representa conceitualmente a quantidade média de informação que pode ser obtida observando ) é dada por: ${\ displaystyle X}$ ${\ displaystyle Y}$ ${\ displaystyle X}$ ${\ displaystyle Y}$

{\ displaystyle \ operatorname {I} (X; Y) = \ sum _ {y \ in Y} p (y) \ sum _ {x \ in X} {p (x | y) \ log {\ frac {p (x | y)} {p (x)}}} = \ sum _ {x, y} p (x, y) \ log {\ frac {p (x, y)} {p (x) \, p (y)}}.}

Uma propriedade básica da informação mútua é que:

{\ displaystyle \ operatorname {I} (X; Y) = \ mathrm {H} (X) - \ mathrm {H} (X | Y). \,}

Ou seja, sabendo , podemos economizar uma média de bits na codificação em comparação com não saber . A informação mútua é simétrica : ${\ displaystyle Y}$ ${\ displaystyle \ operatorname {I} (X; Y)}$ ${\ displaystyle X}$ ${\ displaystyle Y}$

{\ displaystyle \ operatorname {I} (X; Y) = \ operatorname {I} (Y; X) = \ mathrm {H} (X) + \ mathrm {H} (Y) - \ mathrm {H} (X , Y). \,}

A informação mútua pode ser expressa como a divergência Kullback-Leibler média (ganho de informação) da distribuição de probabilidade posterior dado o valor de à distribuição anterior em : ${\ displaystyle X}$ ${\ displaystyle Y}$ ${\ displaystyle X}$

{\ displaystyle \ operatorname {I} (X; Y) = \ mathbb {E} _ {p (y)} \ left [D _ {\ mathrm {KL}} {\ bigl (} p (X | Y = y) \ | p (X) {\ bigr)} \ right].}

Em outras palavras, esta é uma medida de quanto, em média, a distribuição de probabilidade em mudará se nos for dado o valor de . Isso é frequentemente recalculado como a divergência do produto das distribuições marginais para a distribuição conjunta real: ${\ displaystyle X}$ ${\ displaystyle Y}$

{\ displaystyle \ operatorname {I} (X; Y) = D _ {\ mathrm {KL}} {\ bigl (} p (X, Y) \ | p (X) p (Y) {\ bigr)}.}

A informação mútua está intimamente relacionada ao teste de razão de probabilidade log no contexto das tabelas de contingência e da distribuição multinomial e ao teste χ ^{2 de} Pearson : a informação mútua pode ser considerada uma estatística para avaliar a independência entre um par de variáveis, e tem uma distribuição assintótica especificada.

Entropia diferencial

As medidas de base de discreta entropia tenha sido estendido por analogia a contínuas espaços substituindo somas integrais com e funções de massa de probabilidade com funções de densidade de probabilidade . Embora, em ambos os casos, a informação mútua expresse o número de bits de informação comuns às duas fontes em questão, a analogia não implica propriedades idênticas; por exemplo, a entropia diferencial pode ser negativa.

As analogias diferenciais de entropia, entropia conjunta, entropia condicional e informação mútua são definidas como segue:

{\ displaystyle h (X) = - \ int _ {X} f (x) \ log f (x) \, dx}

{\ displaystyle h (X, Y) = - \ int _ {Y} \ int _ {X} f (x, y) \ log f (x, y) \, dx \, dy}

{\ displaystyle h (X | y) = - \ int _ {X} f (x | y) \ log f (x | y) \, dx}

{\ displaystyle h (X | Y) = \ int _ {Y} \ int _ {X} f (x, y) \ log {\ frac {f (y)} {f (x, y)}} \, dx \, dy}

{\ displaystyle \ operatorname {I} (X; Y) = \ int _ {Y} \ int _ {X} f (x, y) \ log {\ frac {f (x, y)} {f (x) f (y)}} \, dx \, dy}

onde é a função de densidade conjunta e são as distribuições marginais e é a distribuição condicional. ${\ displaystyle f (x, y)}$ ${\ displaystyle f (x)}$ ${\ displaystyle f (y)}$ ${\ displaystyle f (x | y)}$