Divergência de Kullback-Leibler - Kullback–Leibler divergence

Em estatística matemática , a entropia relativa (também chamada de divergência de Kullback-Leibler ) é uma medida de como uma distribuição de probabilidade é diferente de uma segunda distribuição de probabilidade de referência. As aplicações incluem a caracterização da entropia relativa (Shannon) em sistemas de informação, aleatoriedade em séries de tempo contínuas e ganho de informação ao comparar modelos estatísticos de inferência . Em contraste com a variação da informação , é uma medida assimétrica em termos de distribuição e, portanto, não se qualifica como uma métrica estatística de propagação - ela também não satisfaz a desigualdade do triângulo . No caso simples, uma entropia relativa de 0 indica que as duas distribuições em questão são idênticas. Em termos simplificados, é uma medida de surpresa, com diversas aplicações como estatística aplicada, mecânica dos fluidos , neurociência e aprendizado de máquina .

Introdução e contexto

Considere duas distribuições de probabilidade e . Normalmente, representa os dados, as observações ou uma distribuição de probabilidade medida com precisão. A distribuição representa, em vez disso, uma teoria, um modelo, uma descrição ou uma aproximação de . A divergência de Kullback-Leibler é então interpretada como a diferença média do número de bits necessários para codificar amostras usando um código otimizado para, em vez de um otimizado para .

Etimologia

A entropia relativa foi introduzida por Solomon Kullback e Richard Leibler em 1951 como a divergência dirigida entre duas distribuições; Kullback preferia o termo informação de discriminação . A divergência é discutida no livro de Kullback, de 1959, Information Theory and Statistics .

Definição

Para distribuições de probabilidade discretas e definida no mesmo espaço de probabilidade , , a entropia relativa de a é definido como sendo

que é equivalente a

Em outras palavras, é a expectativa da diferença logarítmica entre as probabilidades e , onde a expectativa é tomada a partir das probabilidades . A entropia relativa é definida apenas se para todos , implica ( continuidade absoluta ). Sempre que for zero, a contribuição do termo correspondente é interpretada como zero porque

Para distribuições e de uma variável aleatória contínua , a entropia relativa é definida como a integral:

onde e denotam as densidades de probabilidade de e .

Mais geralmente, se e são medidas de probabilidade sobre um conjunto , e é absolutamente contínuo em relação a , então a entropia relativa de a é definida como

onde é o derivado Radon-Nikodym de em relação a , e desde que exista a expressão no lado direito. Equivalentemente (pela regra da cadeia ), isso pode ser escrito como

que é a entropia de em relação a . Continuando neste caso, se existe alguma medida para a qual e existe (o que significa que e são absolutamente contínuos em relação a ), então a entropia relativa de a é dada como

Os logaritmos nessas fórmulas são tomados na base 2 se a informação for medida em unidades de bits , ou na base se a informação for medida em nats . A maioria das fórmulas envolvendo entropia relativa se mantém independentemente da base do logaritmo.

Existem várias convenções para se referir em palavras. Freqüentemente, é referido como a divergência entre e , mas isso falha em transmitir a assimetria fundamental na relação. Às vezes, como neste artigo, pode ser descrito como a divergência de partir ou como a divergência entre a . Isso reflete a assimetria na Bayesiana de inferência , que começa a partir de uma prévia e atualizações para o posterior . Outra maneira comum de se referir é como a entropia relativa de em relação a .

Exemplo básico

Kullback fornece o seguinte exemplo (Tabela 2.1, Exemplo 2.1). Deixe e seja as distribuições mostradas na tabela e na figura. é a distribuição no lado esquerdo da figura, uma distribuição binomial com e . representa a distribuição no lado direito da figura, uma distribuição uniforme discreta com os três resultados possíveis , , ou (ou seja ), cada um com probabilidade .

Duas distribuições para ilustrar a entropia relativa

x 0 1 2
Distribuição P (x)
Distribuição Q (x)

Entropias relativas e são calculadas como segue. Este exemplo usa o log natural com base e , designado para obter resultados em nats (ver unidades de informação ).

Interpretações

A entropia relativa de a é freqüentemente indicada .

No contexto do aprendizado de máquina , é frequentemente chamado de ganho de informação obtido se for usado em vez de . Por analogia com a teoria da informação, é chamada de entropia relativa de em relação a . No contexto da teoria da codificação , pode ser construído medindo o número esperado de bits extras necessários para codificar amostras usando um código otimizado em vez do código otimizado para .

Expresso na linguagem da inferência bayesiana , é uma medida da informação obtida pela revisão das crenças de alguém da distribuição de probabilidade anterior para a distribuição de probabilidade posterior . Em outras palavras, é a quantidade de informação perdida quando usada para aproximar . Em aplicações, normalmente representa a distribuição "verdadeira" de dados, observações ou uma distribuição teórica calculada com precisão, enquanto normalmente representa uma teoria, modelo, descrição ou aproximação de . Para encontrar uma distribuição mais próxima de , podemos minimizar a divergência KL e calcular uma projeção de informação .

Entropia Relativa é um caso especial de uma classe mais ampla de divergências estatísticos chamados f -divergences , bem como a classe de divergências Bregman . É a única divergência sobre probabilidades que é membro de ambas as classes. Embora seja frequentemente intuída como uma forma de medir a distância entre as distribuições de probabilidade , a divergência de Kullback-Leibler não é uma métrica verdadeira . Não obedece à Desigualdade do Triângulo e, em geral, não é igual . No entanto, sua forma infinitesimal , especificamente seu Hessian , fornece um tensor métrico conhecido como a métrica de informação de Fisher .

Arthur Hobson provou que a entropia relativa é a única medida de diferença entre distribuições de probabilidade que satisfaz algumas propriedades desejadas, que são a extensão canônica daquelas que aparecem em uma caracterização comumente usada de entropia . Consequentemente, a informação mútua é a única medida de dependência mútua que obedece a certas condições relacionadas, uma vez que pode ser definida em termos da divergência de Kullback-Leibler .

Motivação

Ilustração da entropia relativa para duas distribuições normais . A assimetria típica é claramente visível.

Em teoria da informação, a Kraft-McMillan teorema estabelece que qualquer esquema de codificação directamente descodificável para codificar uma mensagem para identificar um valor de um conjunto de possibilidades pode ser vista como representando uma distribuição de probabilidade implícito ao longo , onde é o comprimento do código para em bits. Portanto, a entropia relativa pode ser interpretada como o comprimento de mensagem extra esperado por dado que deve ser comunicado se um código que é ótimo para uma determinada distribuição (errada) for usado, em comparação com o uso de um código baseado na distribuição verdadeira .

onde está a entropia cruzada de e , e é a entropia cruzada de (que é o mesmo que a entropia cruzada de P consigo mesmo).

A entropia relativa pode ser considerada algo como uma medida de quão longe a distribuição Q está da distribuição P. A entropia cruzada é em si uma tal medida, mas tem o defeito que não é zero, então subtraímos para fazer acordo mais de perto com nossa noção de distância. (Infelizmente, ainda não é simétrica.) A entropia relativa está relacionada à " função de taxa " na teoria dos grandes desvios .

Propriedades

um resultado conhecido como desigualdade de Gibbs , com zero se e somente se quase em todos os lugares . A entropia, portanto, define um valor mínimo para a entropia cruzada , o número esperado de bits necessários ao usar um código baseado em, em vez de ; e a divergência de Kullback-Leibler, portanto, representa o número esperado de bits extras que devem ser transmitidos para identificar um valor retirado , se um código for usado correspondente à distribuição de probabilidade , em vez da distribuição "verdadeira" .
  • A entropia relativa permanece bem definida para distribuições contínuas e, além disso, é invariante sob transformações de parâmetros . Por exemplo, se uma transformação é feita de variável para variável , então, desde e a entropia relativa pode ser reescrita:
onde e . Embora se presumisse que a transformação era contínua, esse não precisa ser o caso. Isso também mostra que a entropia relativa produz uma quantidade dimensionalmente consistente , já que se é uma variável dimensionada, e também são dimensionadas, já que eg é adimensional. O argumento do termo logarítmico é e permanece sem dimensão, como deve ser. Portanto, pode ser visto como uma quantidade mais fundamental do que algumas outras propriedades na teoria da informação (como auto-informação ou entropia de Shannon ), que pode se tornar indefinida ou negativa para probabilidades não discretas.
  • A entropia relativa é aditiva para distribuições independentes da mesma forma que a entropia de Shannon. Se forem distribuições independentes, com a distribuição conjunta , e da mesma forma, então
  • A entropia relativa é convexa no par de funções de massa de probabilidade , ou seja, se e são dois pares de funções de massa de probabilidade, então

Exemplos

Distribuições normais multivariadas

Suponha que temos duas distribuições normais multivariadas , com médias e com matrizes de covariância (não singulares). Se as duas distribuições têm a mesma dimensão , então a entropia relativa entre as distribuições é a seguinte:

O logaritmo no último termo deve ser tomado como base e, uma vez que todos os termos, exceto o último, são logaritmos de base e de expressões que são fatores da função densidade ou surgem naturalmente. A equação, portanto, dá um resultado medido em nats . Dividir toda a expressão acima por resulta na divergência em bits .

Um caso especial, e uma quantidade comum na inferência variacional , é a entropia relativa entre uma normal multivariada diagonal e uma distribuição normal padrão (com média zero e variância unitária):

Relação com métricas

Alguém pode ficar tentado a chamar a entropia relativa de " métrica de distância " no espaço de distribuições de probabilidade, mas isso não seria correto, pois não é simétrica - isto é, - nem satisfaz a desigualdade do triângulo . Ele gera uma topologia no espaço de distribuições de probabilidade . Mais concretamente, se é uma sequência de distribuições tal que

então é dito que

A desigualdade de Pinsker implica que

onde o último representa a convergência usual na variação total .

Fisher informações métricas

A entropia relativa está diretamente relacionada à métrica de informações de Fisher . Isso pode ser explicitado da seguinte maneira. Suponha que as distribuições de probabilidade e sejam parametrizadas por algum parâmetro (possivelmente multidimensional) . Considere então dois valores próximos de e de modo que o parâmetro difira apenas um pouco do valor do parâmetro . Especificamente, até a primeira ordem que se tem (usando a convenção de soma de Einstein )

com uma pequena alteração de na direcção, e a correspondente taxa de alteração na distribuição de probabilidade. Como a entropia relativa tem um mínimo absoluto de 0 para , ou seja , ela muda apenas para a segunda ordem nos parâmetros pequenos . Mais formalmente, como para qualquer mínimo, os primeiros derivados da divergência desaparecem

e pela expansão de Taylor tem-se até segunda ordem

onde a matriz Hessiana da divergência

deve ser semidefinido positivo . Deixando variar (e eliminando o subíndice 0), o Hessiano define uma métrica Riemanniana (possivelmente degenerada) no espaço de parâmetros θ , chamada de métrica de informação de Fisher.

Teorema métrico da informação de Fisher

Quando satisfaz as seguintes condições de regularidade:

existir,

onde ξ é independente de ρ

então:

Variação de informação

Outra métrica teórica da informação é a variação da informação , que é aproximadamente uma simetrização da entropia condicional . É uma métrica no conjunto de partições de um espaço de probabilidade discreto .

Relação com outras quantidades da teoria da informação

Muitas das outras quantidades da teoria da informação podem ser interpretadas como aplicações de entropia relativa a casos específicos.

Auto-informação

A autoinformação , também conhecida como conteúdo de informação de um sinal, variável aleatória ou evento, é definida como o logaritmo negativo da probabilidade de ocorrência de determinado resultado.

Quando aplicada a uma variável aleatória discreta , a auto-informação pode ser representada como

é a entropia relativa da distribuição de probabilidade de um delta de Kronecker que representa a certeza de que - isto é, o número de bits extras que devem ser transmitidos para identificar se apenas a distribuição de probabilidade está disponível para o receptor, não o fato .

Informação mútua

A informação mútua ,

é a entropia relativa do produto das duas distribuições de probabilidade marginal da distribuição de probabilidade conjunta - isto é, o número esperado de bits extras que devem ser transmitidos para identificar e se eles são codificados usando apenas suas distribuições marginais em vez da distribuição conjunta. Da mesma forma, se a probabilidade conjunta for conhecida, é o número esperado de bits extras que devem ser enviados em média para identificar se o valor de ainda não é conhecido pelo receptor.

Entropia de Shannon

A entropia de Shannon ,

é o número de bits que têm de ser transmitidos para identificar de possibilidades igualmente susceptíveis, menos a entropia relativa da distribuição uniforme sobre os variates aleatórios de , , da verdadeira distribuição - isto é, menos o número esperado de bits guardado, que teria teve que ser enviado se o valor de foi codificado de acordo com a distribuição uniforme em vez da distribuição verdadeira .

Entropia condicional

A entropia condicional ,

é o número de bits que teriam de ser transmitidos para identificar a partir de possibilidades igualmente prováveis, menos a entropia relativa da distribuição do produto da distribuição conjunta verdadeira - ou seja, menos o número esperado de bits salvos que teriam de ser enviados se o valor de foram codificados de acordo com a distribuição uniforme em vez da distribuição condicional de dados .

Entropia cruzada

Quando temos um conjunto de eventos possíveis, vindos da distribuição p , podemos codificá-los (com uma compressão de dados sem perdas ) usando a codificação de entropia . Isso comprime os dados substituindo cada símbolo de entrada de comprimento fixo por um código único, de comprimento variável e sem prefixo correspondente (por exemplo: os eventos (A, B, C) com probabilidades p = (1/2, 1/4, 1/4) pode ser codificado como os bits (0, 10, 11)). Se conhecermos a distribuição p com antecedência, podemos conceber uma codificação que seria ótima (por exemplo: usando a codificação de Huffman ). Significa que as mensagens que codificamos terão o menor comprimento em média (assumindo que os eventos codificados são amostrados de p ), que será igual à Entropia de Shannon de p (denotado como ). No entanto, se usarmos uma distribuição de probabilidade diferente ( q ) ao criar o esquema de codificação de entropia, um número maior de bits será usado (em média) para identificar um evento a partir de um conjunto de possibilidades. Este novo número (maior) é medido pela entropia cruzada entre p e q .

A entropia cruzada entre duas distribuições de probabilidade ( p e q ) mede o número médio de bits necessários para identificar um evento a partir de um conjunto de possibilidades, se um esquema de codificação for usado com base em uma determinada distribuição de probabilidade q , em vez da distribuição "verdadeira" p . A entropia cruzada para duas distribuições p e q sobre o mesmo espaço de probabilidade é, portanto, definida da seguinte forma:

Nesse cenário, as entropias relativas podem ser interpretadas como o número extra de bits, em média, que são necessários (além ) para codificar os eventos devido ao uso de q para construir o esquema de codificação em vez de p .

Atualização bayesiana

Em estatística Bayesiana , entropia relativa pode ser usada como uma medida do ganho de informação em movimento a partir de uma distribuição antes de uma distribuição a posteriori : . Se algum fato novo for descoberto, ele pode ser usado para atualizar a distribuição posterior de de para uma nova distribuição posterior usando o teorema de Bayes :

Esta distribuição tem uma nova entropia :

que pode ser menor ou maior que a entropia original . No entanto, do ponto de vista da nova distribuição de probabilidade, pode-se estimar que ter usado o código original baseado em, em vez de um novo código baseado em , teria adicionado um número esperado de bits:

para o comprimento da mensagem. Portanto, isso representa a quantidade de informações úteis, ou ganho de informações, sobre as quais podemos estimar que aprendemos por meio da descoberta .

Se mais um dado ,, vier subsequentemente, a distribuição de probabilidade de pode ser atualizada posteriormente, para dar uma nova estimativa . Se alguém reinvestigar o ganho de informação por usar em vez de , verifica-se que pode ser maior ou menor do que o estimado anteriormente:

pode ser ≤ ou> do que

e assim o ganho de informação combinado não obedece à desigualdade do triângulo:

pode ser <, = ou> que

Tudo o que se pode dizer é que, em média , calculando a média usando , os dois lados farão a média.

Projeto experimental bayesiano

Um objetivo comum no projeto experimental Bayesiano é maximizar a entropia relativa esperada entre o anterior e o posterior. Quando as posteriores são aproximadas para serem distribuições gaussianas, um projeto que maximiza a entropia relativa esperada é chamado Bayes d-ótimo .

Informação de discriminação

A entropia relativa também pode ser interpretada como a informação de discriminação esperada para mais : a informação média por amostra para discriminar a favor de uma hipótese contra uma hipótese , quando a hipótese é verdadeira. Outro nome para essa quantidade, dado a ela por IJ Good , é o peso de evidência esperado para excedente a ser esperado de cada amostra.

O peso esperado da evidência para mais não é o mesmo que o ganho de informação esperado por amostra sobre a distribuição de probabilidade das hipóteses,

Qualquer uma das duas quantidades pode ser usada como uma função de utilidade no projeto experimental Bayesiano, para escolher uma próxima questão ótima a ser investigada: mas elas geralmente levarão a estratégias experimentais bastante diferentes.

Na escala de entropia de ganho de informação, há muito pouca diferença entre quase certeza e certeza absoluta - a codificação de acordo com uma quase certeza requer quase nada mais do que a codificação de acordo com uma certeza absoluta. Por outro lado, na escala logit sugerida pelo peso da evidência, a diferença entre as duas é enorme - infinita talvez; isso pode refletir a diferença entre estar quase certo (em um nível probabilístico) de que, digamos, a hipótese de Riemann está correta, em comparação com estar certo de que é correta porque se tem uma prova matemática. Estas duas escalas diferentes de função de perda de incerteza são ambos úteis, de acordo com o quão bem cada reflecte as circunstâncias particulares do problema em questão.

Princípio da informação de discriminação mínima

A ideia de entropia relativa como informação de discriminação levou Kullback a propor o Princípio da Informação de Discriminação Mínima (MDI): dados novos fatos, uma nova distribuição deve ser escolhida que seja tão difícil de discriminar da distribuição original quanto possível; para que os novos dados produzam o menor ganho de informação possível.

Por exemplo, se um tinha uma distribuição prévia sobre e , e, posteriormente, aprendeu a verdadeira distribuição de era , então a entropia relativa entre a nova distribuição conjunta para e , e a distribuição mais cedo antes seria:

isto é, a soma da entropia relativa da distribuição anterior da distribuição atualizada , mais o valor esperado (usando a distribuição de probabilidade ) da entropia relativa da distribuição condicional anterior da nova distribuição condicional . (Observe que frequentemente o valor esperado posterior é chamado de entropia relativa condicional (ou divergência de Kullback-Leibler condicional ) e denotado por ) Isso é minimizado se ao longo de todo o suporte de ; e notamos que este resultado incorpora o teorema de Bayes, se a nova distribuição é de fato uma função δ representando certeza que tem um valor particular.

MDI pode ser visto como uma extensão de Laplace 's Princípio da Razão insuficiente , e a máxima entropia de ET Jaynes . Em particular, é a extensão natural do princípio da entropia máxima de distribuições discretas para contínuas, para a qual a entropia de Shannon deixa de ser tão útil (ver entropia diferencial ), mas a entropia relativa continua a ser tão relevante.

Na literatura de engenharia, MDI é algumas vezes chamado de Princípio de Entropia Cruzada Mínima (MCE) ou Minxent para abreviar. Minimizar a entropia relativa de a em relação a é equivalente a minimizar a entropia cruzada de e , uma vez que

o que é apropriado se alguém está tentando escolher uma aproximação adequada para . No entanto, com frequência não é essa a tarefa que se está tentando realizar. Em vez disso, com a mesma frequência, essa é uma medida de referência anterior fixa e que se tenta otimizar, minimizando o sujeito a alguma restrição. Isso levou a alguma ambiguidade na literatura, com alguns autores tentando resolver a inconsistência redefinindo a entropia cruzada como , em vez de .

Relação com o trabalho disponível

Gráfico de pressão versus volume do trabalho disponível de um mol de gás argônio em relação ao ambiente, calculado como vezes a divergência de Kullback-Leibler.

As surpresas somam onde as probabilidades se multiplicam. A surpresa para um evento de probabilidade é definida como . Se é, então, surprisal está em nats, bits, ou então, por exemplo, há bits de surprisal para acertar todas as "caras" em um lance de moedas.

Estados de melhor estimativa (por exemplo, para átomos em um gás) são inferidos pela maximização da surpresa média ( entropia ) para um determinado conjunto de parâmetros de controle (como pressão ou volume ). Esta maximização de entropia restrita , tanto classicamente quanto mecanicamente quântica, minimiza a disponibilidade de Gibbs em unidades de entropia onde é uma multiplicidade restrita ou função de partição .

Quando a temperatura é fixa, a energia livre ( ) também é minimizada. Assim, se e o número de moléculas são constantes, a energia livre de Helmholtz (onde está a energia) é minimizada à medida que um sistema "se equilibra". Se e forem mantidos constantes (digamos durante processos em seu corpo), a energia livre de Gibbs será minimizada. A mudança na energia livre sob essas condições é uma medida do trabalho disponível que pode ser feito no processo. Assim, o trabalho disponível para um gás ideal em temperatura e pressão constantes é onde e (veja também a desigualdade de Gibbs ).

Mais geralmente, o trabalho disponível em relação a algum ambiente é obtido multiplicando-se a temperatura ambiente pela entropia relativa ou surpresa líquida definida como o valor médio de onde é a probabilidade de um determinado estado sob as condições ambientais. Por exemplo, o trabalho disponível em equilibrar um gás ideal monoatômico para valores ambientais de e é , portanto , onde a entropia relativa

Os contornos resultantes da entropia relativa constante, mostrados à direita para um mol de Argônio na temperatura e pressão padrão, por exemplo, colocam limites na conversão de quente em frio como no ar condicionado movido a chama ou no dispositivo sem energia para converter ebulição água para gelo-água discutida aqui. Assim, a entropia relativa mede a disponibilidade termodinâmica em bits.

Teoria da informação quântica

Para matrizes de densidade e em um espaço de Hilbert , a entropia relativa quântica de a é definida como sendo

Na ciência da informação quântica, o mínimo de todos os estados separáveis também pode ser usado como uma medida de emaranhamento no estado .

Relação entre modelos e realidade

Assim como a entropia relativa de "real do ambiente" mede a disponibilidade termodinâmica, a entropia relativa da "realidade de um modelo" também é útil, mesmo que as únicas pistas que temos sobre a realidade sejam algumas medições experimentais. No primeiro caso a entropia relativa descreve a distância ao equilíbrio ou (quando multiplicada pela temperatura ambiente) a quantidade de trabalho disponível , enquanto no último caso ela fala sobre as surpresas que a realidade tem na manga ou, em outras palavras, quanto o modelo ainda tem que aprender .

Embora essa ferramenta de avaliação de modelos em relação a sistemas acessíveis experimentalmente possa ser aplicada em qualquer campo, sua aplicação para selecionar um modelo estatístico via critério de informação de Akaike é particularmente bem descrita em artigos e um livro de Burnham e Anderson. Em poucas palavras, a entropia relativa da realidade de um modelo pode ser estimada, dentro de um termo aditivo constante, por uma função dos desvios observados entre os dados e as previsões do modelo (como o desvio médio ao quadrado ). As estimativas de tal divergência para modelos que compartilham o mesmo termo aditivo podem, por sua vez, ser usadas para selecionar entre os modelos.

Ao tentar ajustar modelos parametrizados aos dados, existem vários estimadores que tentam minimizar a entropia relativa, como estimadores de máxima verossimilhança e espaçamento máximo .

Divergência simetrizada

Os próprios Kullback e Leibler definiram a divergência como:

que é simétrico e não negativo. Essa quantidade às vezes tem sido usada para seleção de recursos em problemas de classificação , onde e são os pdfs condicionais de um recurso em duas classes diferentes. Nos setores bancário e financeiro, essa quantidade é conhecida como Índice de Estabilidade da População e é usada para avaliar mudanças distributivas nas características do modelo ao longo do tempo.

Uma alternativa é dada por meio da divergência,

que pode ser interpretado como o ganho de informação esperado sobre a descoberta de qual distribuição de probabilidade é obtida, ou , se eles atualmente têm probabilidades e respectivamente.

O valor dá a divergência Jensen-Shannon , definida por

onde é a média das duas distribuições,

também pode ser interpretado como a capacidade de um canal de informação ruidoso com duas entradas fornecendo as distribuições de saída e . A divergência de Jensen-Shannon, como todas as divergências f , é localmente proporcional à métrica de informação de Fisher . É semelhante à métrica Hellinger (no sentido de que induz a mesma conexão afim em uma variedade estatística ).

Relação com outras medidas de probabilidade-distância

Existem muitas outras medidas importantes de distância de probabilidade . Alguns deles estão particularmente ligados à entropia relativa. Por exemplo:

  • A distância total variação , . Isso está conectado à divergência por meio da desigualdade de Pinsker :
  • As divergências da família de Rényi generalizam a entropia relativa. Dependendo do valor de um determinado parâmetro , várias desigualdades podem ser deduzidas.

Outras medidas notáveis de distância incluem a distância Hellinger , interseção histograma , estatística Qui-quadrado , distância forma quadrática , jogo distância , Kolmogorov-Smirnov distância e à distância Terra do motor .

Diferenciação de dados

Assim como a entropia absoluta serve como base teórica para compressão de dados , a entropia relativa serve como base teórica para diferenciação de dados - a entropia absoluta de um conjunto de dados, neste sentido, sendo os dados necessários para reconstruí-lo (tamanho mínimo comprimido), enquanto a entropia relativa de um conjunto de dados de destino, dado um conjunto de dados de origem, são os dados necessários para reconstruir o destino de acordo com a origem (tamanho mínimo de um patch ).

Veja também

Referências

links externos