Teoria de Dempster-Shafer - Dempster–Shafer theory

A teoria das funções de crença , também conhecida como teoria da evidência ou teoria de Dempster-Shafer ( DST ), é uma estrutura geral para raciocinar com incerteza, com conexões compreendidas a outras estruturas, como probabilidade, possibilidade e teorias de probabilidade imprecisas . Introduzida pela primeira vez por Arthur P. Dempster no contexto da inferência estatística, a teoria foi posteriormente desenvolvida por Glenn Shafer em uma estrutura geral para modelar a incerteza epistêmica - uma teoria matemática da evidência . A teoria permite combinar evidências de diferentes fontes e chegar a um grau de crença (representado por um objeto matemático chamado função de crença ) que leva em consideração todas as evidências disponíveis.

Em um sentido restrito, o termo teoria de Dempster-Shafer refere-se à concepção original da teoria de Dempster e Shafer. No entanto, é mais comum usar o termo no sentido mais amplo da mesma abordagem geral, conforme adaptado a tipos específicos de situações. Em particular, muitos autores propuseram regras diferentes para combinar evidências, muitas vezes com o objetivo de lidar melhor com os conflitos nas evidências. As primeiras contribuições também foram o ponto de partida de muitos desenvolvimentos importantes, incluindo o modelo de crença transferível e a teoria das dicas.

Visão geral

A teoria de Dempster-Shafer é uma generalização da teoria Bayesiana da probabilidade subjetiva . As funções de crença baseiam os graus de crença (ou confiança, ou confiança) para uma pergunta nas probabilidades subjetivas de uma pergunta relacionada. Os próprios graus de crença podem ou não ter as propriedades matemáticas das probabilidades; o quanto eles diferem depende de quão intimamente as duas questões estão relacionadas. Colocado de outra forma, é uma forma de representar plausibilidades epistêmicas, mas pode produzir respostas que contradizem aquelas obtidas com o uso da teoria da probabilidade .

Freqüentemente usada como um método de fusão de sensores , a teoria de Dempster-Shafer é baseada em duas idéias: obtenção de graus de crença para uma questão a partir de probabilidades subjetivas para uma questão relacionada e a regra de Dempster para combinar tais graus de crença quando eles são baseados em itens independentes de evidências. Em essência, o grau de crença em uma proposição depende principalmente do número de respostas (para as questões relacionadas) contendo a proposição e da probabilidade subjetiva de cada resposta. Também contribuem as regras de combinação que refletem suposições gerais sobre os dados.

Nesse formalismo, um grau de crença (também conhecido como massa ) é representado como uma função de crença em vez de uma distribuição de probabilidade bayesiana . Os valores de probabilidade são atribuídos a conjuntos de possibilidades em vez de eventos únicos: seu apelo repousa no fato de que eles codificam naturalmente evidências em favor de proposições.

A teoria de Dempster-Shafer atribui suas massas a todos os subconjuntos das proposições que compõem um sistema - em termos da teoria dos conjuntos , o conjunto de poder das proposições. Por exemplo, suponha uma situação em que haja duas questões ou proposições relacionadas em um sistema. Nesse sistema, qualquer função de crença atribui massa à primeira proposição, à segunda, ambas ou nenhuma.

Crença e plausibilidade

O formalismo de Shafer começa a partir de um conjunto de possibilidades em consideração, por exemplo, valores numéricos de uma variável ou pares de variáveis ​​linguísticas como "data e local de origem de uma relíquia" (perguntando se é antiga ou uma falsificação recente). Uma hipótese é representada por um subconjunto desse quadro de discernimento , como "(dinastia Ming, China)" ou "(século 19, Alemanha)".

A estrutura de Shafer permite que a crença sobre tais proposições seja representada como intervalos, limitada por dois valores, crença (ou suporte ) e plausibilidade :

crençaplausibilidade .

Em uma primeira etapa, as probabilidades subjetivas ( massas ) são atribuídas a todos os subconjuntos do referencial; normalmente, apenas um número restrito de conjuntos terá massa diferente de zero ( elementos focais ). A crença em uma hipótese é constituída pela soma das massas de todos os subconjuntos do conjunto de hipóteses. É a quantidade de crença que apóia diretamente a hipótese dada ou uma mais específica, formando assim um limite inferior em sua probabilidade. A crença (geralmente denotada como Bel ) mede a força da evidência a favor de uma proposição p . Ele varia de 0 (indicando nenhuma evidência) a 1 (denotando certeza). A plausibilidade é 1 menos a soma das massas de todos os conjuntos cuja interseção com a hipótese é vazia. Ou pode ser obtido como a soma das massas de todos os conjuntos cuja interseção com a hipótese não é vazia. É um limite superior para a possibilidade de que a hipótese possa ser verdadeira, ou seja , "poderia ser possivelmente o verdadeiro estado do sistema" até aquele valor, porque há apenas uma quantidade limitada de evidências que contradiz essa hipótese. A plausibilidade (denotada por Pl) é definida como sendo Pl ( p ) = 1 - Bel (~ p ). Também varia de 0 a 1 e mede até que ponto as evidências a favor de ~ p deixam espaço para a crença em p .

Por exemplo, suponha que temos uma crença de 0,5 para uma proposição, digamos "o gato na caixa está morto". Isso significa que temos evidências que nos permitem afirmar fortemente que a proposição é verdadeira com uma confiança de 0,5. No entanto, a evidência contrária a essa hipótese (ou seja, "o gato está vivo") tem apenas uma confiança de 0,2. A massa restante de 0,3 (a lacuna entre a evidência de apoio de 0,5 de um lado e a evidência contrária de 0,2 do outro) é "indeterminada", o que significa que o gato pode estar vivo ou morto. Este intervalo representa o nível de incerteza com base nas evidências do sistema.

Hipótese Massa Crença Plausibilidade
Nulo (nem vivo nem morto) 0 0 0
Vivo 0,2 0,2 0,5
Morto 0,5 0,5 0,8
Qualquer um (vivo ou morto) 0,3 1.0 1.0

A hipótese nula é definida como zero por definição (corresponde a "nenhuma solução"). As hipóteses ortogonais "Vivo" e "Morto" têm probabilidades de 0,2 e 0,5, respectivamente. Isso pode corresponder a sinais "Live / Dead Cat Detector", que têm respectivas confiabilidades de 0,2 e 0,5. Finalmente, a hipótese abrangente "Qualquer um" (que simplesmente reconhece que há um gato na caixa) diminui a folga para que a soma das massas seja 1. A crença nas hipóteses "Vivo" e "Morto" corresponde às suas massas correspondentes porque não têm subconjuntos; a crença em "Qualquer um" consiste na soma de todas as três massas (Either, Alive e Dead) porque "Alive" e "Dead" são subconjuntos de "Either". A plausibilidade "Alive" é 1 -  m (Morto): 0,5 e a plausibilidade "Morto" é 1 -  m (Vivo): 0,8. Por outro lado, a plausibilidade "Alive" é m (Alive) + m (Either) e a plausibilidade "Dead" é m (Dead) + m (Either). Finalmente, a plausibilidade de "Qualquer um" soma m (Vivo) +  m (Morto) +  m (Ambos). A hipótese universal ("Qualquer um") sempre terá 100% de crença e plausibilidade - ela atua como uma espécie de checksum .

Aqui está um exemplo um pouco mais elaborado onde o comportamento de crença e plausibilidade começa a emergir. Estamos examinando uma variedade de sistemas de detecção em uma única luz de sinal distante, que só pode ser colorida em uma das três cores (vermelho, amarelo ou verde):

Hipótese Massa Crença Plausibilidade
Nulo 0 0 0
vermelho 0,35 0,35 0,56
Amarelo 0,25 0,25 0,45
Verde 0,15 0,15 0,34
Vermelho ou amarelo 0,06 0,66 0,85
Vermelho ou verde 0,05 0,55 0,75
Amarelo ou verde 0,04 0,44 0,65
Algum 0,1 1.0 1.0

Eventos desse tipo não seriam modelados como conjuntos disjuntos no espaço de probabilidade como são aqui no espaço de atribuição de massa. Em vez disso, o evento "Vermelho ou Amarelo" seria considerado como a união dos eventos "Vermelho" e "Amarelo", e (ver axiomas de probabilidade ) P (Vermelho ou Amarelo) ≥ P (Amarelo) e P (Qualquer) = 1 , onde Qualquer refere-se a Red ou amarelo ou verde . No DST, a massa atribuída a Qualquer se refere à proporção de evidência que não pode ser atribuída a nenhum dos outros estados, o que aqui significa evidência que diz que há uma luz, mas não diz nada sobre a cor dela. Neste exemplo, a proporção de evidência que mostra que a luz é vermelha ou verde recebe uma massa de 0,05. Tal evidência pode, por exemplo, ser obtida de um daltônico R / G. O DST nos permite extrair o valor da evidência desse sensor. Além disso, no DST o conjunto Nulo é considerado como tendo massa zero, significando aqui que o sistema de luz sinalizadora existe e estamos examinando seus possíveis estados, não especulando se ele existe.

Combinando crenças

Crenças de diferentes fontes podem ser combinadas com vários operadores de fusão para modelar situações específicas de fusão de crenças, por exemplo, com a regra de combinação de Dempster , que combina restrições de crenças que são ditadas por fontes de crenças independentes, como no caso de combinar dicas ou combinar preferências. Observe que as massas de probabilidade de proposições que se contradizem podem ser usadas para obter uma medida de conflito entre as fontes de crença independentes. Outras situações podem ser modeladas com diferentes operadores de fusão, como fusão cumulativa de crenças de fontes independentes que podem ser modeladas com o operador de fusão cumulativa.

A regra de combinação de Dempster é às vezes interpretada como uma generalização aproximada da regra de Bayes . Nesta interpretação, os antecedentes e condicionais não precisam ser especificados, ao contrário dos métodos Bayesianos tradicionais, que muitas vezes usam um argumento de simetria (erro de minimax) para atribuir probabilidades anteriores a variáveis ​​aleatórias ( por exemplo, atribuir 0,5 a valores binários para os quais não há informações disponíveis sobre quais são mais provável). No entanto, qualquer informação contida nos antecedentes e condicionais ausentes não é usada na regra de combinação de Dempster, a menos que possa ser obtida indiretamente - e indiscutivelmente está então disponível para cálculo usando as equações de Bayes.

A teoria de Dempster-Shafer permite especificar um grau de ignorância nesta situação, em vez de ser forçado a fornecer probabilidades anteriores que contribuem para a unidade. Esse tipo de situação, e se há uma distinção real entre risco e ignorância , foi amplamente discutido por estatísticos e economistas. Veja, por exemplo, as visões contrastantes de Daniel Ellsberg , Howard Raiffa , Kenneth Arrow e Frank Knight .

Definição formal

Seja X o universo : o conjunto que representa todos os estados possíveis de um sistema em consideração. O conjunto de energia

é o conjunto de todos os subconjuntos de X , incluindo o conjunto vazio  . Por exemplo, se:

então

Os elementos do conjunto de potência podem representar proposições relativas ao estado real do sistema, contendo todos e apenas os estados nos quais a proposição é verdadeira.

A teoria da evidência atribui uma massa de crença a cada elemento do conjunto de poder. Formalmente, uma função

é chamada de atribuição de crença básica (BBA), quando tem duas propriedades. Primeiro, a massa do conjunto vazio é zero:

Em segundo lugar, as massas de todos os membros do conjunto de poder somam um total de 1:

A massa m ( A ) de um , um determinado membro do conjunto de alimentação, expressa a proporção de todos os elementos relevantes e disponíveis que apoia a afirmação de que o estado actual pertence a um mas a nenhum subconjunto particular de uma . O valor de m ( A ) pertence apenas ao conjunto A e não faz reivindicações adicionais sobre quaisquer subconjuntos de A , cada um dos quais tem, por definição, sua própria massa.

A partir das atribuições de massa, os limites superior e inferior de um intervalo de probabilidade podem ser definidos. Este intervalo contém a probabilidade precisa de um conjunto de interesse (no sentido clássico) e é delimitado por duas medidas contínuas não aditivas chamadas de crença (ou suporte ) e plausibilidade :

A crença bel ( A ) para um conjunto A é definida como a soma de todas as massas de subconjuntos do conjunto de interesse:

A plausibilidade pl ( A ) é a soma de todas as massas dos conjuntos B que cruzam o conjunto de interesse A :

As duas medidas estão relacionadas entre si da seguinte forma:

E, inversamente, para A finito , dada a medida de crença bel ( B ) para todos os subconjuntos B de A , podemos encontrar as massas m ( A ) com a seguinte função inversa:

onde | A  -  B | é a diferença das cardinalidades dos dois conjuntos.

Ele segue a partir das duas últimas equações que, por um conjunto finito X , é preciso conhecer apenas um dos três (massa, crença ou plausibilidade) para deduzir os outros dois; embora seja necessário saber os valores de muitos conjuntos para calcular um dos outros valores de um conjunto específico. No caso de um X infinito , pode haver funções de crença e plausibilidade bem definidas, mas nenhuma função de massa bem definida.

Regra de combinação de Dempster

O problema que enfrentamos agora é como combinar dois conjuntos independentes de atribuições de massa de probabilidade em situações específicas. No caso de fontes diferentes expressarem suas crenças sobre a estrutura em termos de restrições de crença, como no caso de dar dicas ou no caso de expressar preferências, a regra de combinação de Dempster é o operador de fusão apropriado. Esta regra deriva uma crença comum compartilhada entre fontes múltiplas e ignora todas as crenças conflitantes (não compartilhadas) por meio de um fator de normalização. O uso dessa regra em outras situações que não a combinação de restrições de crença tem sido alvo de sérias críticas, como no caso da fusão de estimativas de crenças separadas de fontes múltiplas que devem ser integradas de forma cumulativa, e não como restrições. A fusão cumulativa significa que todas as massas de probabilidade de diferentes fontes são refletidas na crença derivada, portanto, nenhuma massa de probabilidade é ignorada.

Especificamente, a combinação (chamada de massa conjunta ) é calculada a partir dos dois conjuntos de massas m 1 e m 2 da seguinte maneira:

Onde

K é uma medida da quantidade de conflito entre os dois conjuntos de massa.

Efeitos do conflito

O fator de normalização acima, 1 -  K , tem o efeito de ignorar completamente o conflito e atribuir qualquer massa associada ao conflito ao conjunto nulo. Essa regra de combinação para evidências pode, portanto, produzir resultados contra-intuitivos, como mostraremos a seguir.

Exemplo de produção de resultados corretos em caso de alto conflito

O exemplo a seguir mostra como a regra de Dempster produz resultados intuitivos quando aplicada em uma situação de fusão de preferência, mesmo quando há alto conflito.

Suponha que dois amigos, Alice e Bob, queiram ver um filme no cinema uma noite, e que haja apenas três filmes em exibição: X, Y e Z. Alice expressa sua preferência pelo filme X com probabilidade de 0,99, e sua preferência por filme Y com uma probabilidade de apenas 0,01. Bob expressa sua preferência pelo filme Z com probabilidade de 0,99 e sua preferência pelo filme Y com probabilidade de apenas 0,01. Ao combinar as preferências com a regra de combinação de Dempster, verifica-se que sua preferência combinada resulta em probabilidade 1,0 para o filme Y, porque é o único filme que ambos concordam em ver.
A regra de combinação de Dempster produz resultados intuitivos mesmo no caso de crenças totalmente conflitantes quando interpretadas dessa maneira. Suponha que Alice prefira o filme X com probabilidade 1,0 e que Bob prefira o filme Z com probabilidade 1,0. Ao tentar combinar suas preferências com a regra de Dempster, verifica-se que ela é indefinida neste caso, o que significa que não há solução. Isso significaria que eles não podem concordar em ver nenhum filme juntos, então eles não vão ao cinema juntos naquela noite. No entanto, a semântica de interpretar a preferência como uma probabilidade é vaga: se se refere à probabilidade de ver o filme X esta noite, então enfrentamos a falácia do terceiro excluído : o evento que realmente ocorre, não vendo nenhum dos filmes esta noite, uma massa de probabilidade de 0.

Exemplo de produção de resultados contra-intuitivos em caso de alto conflito

Um exemplo com exatamente os mesmos valores numéricos foi introduzido por Zadeh em 1979, para apontar resultados contra-intuitivos gerados pela regra de Dempster quando há um alto grau de conflito. O exemplo é o seguinte:

Suponha que haja dois médicos igualmente confiáveis ​​e um médico acredite que o paciente tenha um tumor cerebral, com uma probabilidade (isto é, uma atribuição de crença básica - bba, ou massa de crença) de 0,99; ou meningite, com probabilidade de apenas 0,01. Um segundo médico acredita que o paciente tem uma concussão, com probabilidade de 0,99, e acredita que o paciente sofre de meningite, com probabilidade de apenas 0,01. Aplicando a regra de Dempster para combinar esses dois conjuntos de massas de crença, obtém-se finalmente m (meningite) = 1 (a meningite é diagnosticada com 100 por cento de confiança).

Tal resultado vai contra o bom senso, já que os dois médicos concordam que há uma pequena chance de o paciente ter meningite. Este exemplo foi o ponto de partida de muitos trabalhos de pesquisa para tentar encontrar uma justificativa sólida para a regra de Dempster e para os fundamentos da Teoria de Dempster-Shafer ou para mostrar as inconsistências dessa teoria.

Exemplo de produção de resultados contra-intuitivos em caso de baixo conflito

O exemplo a seguir mostra onde a regra de Dempster produz um resultado contra-intuitivo, mesmo quando há pouco conflito.

Suponha que um médico acredite que um paciente tenha um tumor cerebral, com probabilidade de 0,99, ou meningite, com probabilidade de apenas 0,01. Um segundo médico também acredita que o paciente tem um tumor cerebral, com probabilidade de 0,99, e acredita que o paciente sofre de concussão, com probabilidade de apenas 0,01. Se calcularmos m (tumor cerebral) com a regra de Dempster, obtemos

Este resultado implica um suporte completo para o diagnóstico de um tumor cerebral, o que ambos os médicos acreditavam ser muito provável . O acordo decorre do baixo grau de conflito entre os dois conjuntos de evidências que compõem as opiniões dos dois médicos.

Em qualquer caso, seria razoável esperar que:

uma vez que a existência de probabilidades de crença diferente de zero para outros diagnósticos implica menos do que suporte completo para o diagnóstico de tumor cerebral.

Dempster-Shafer como uma generalização da teoria Bayesiana

Como na teoria de Dempster-Shafer, uma função de crença Bayesiana tem as propriedades e . A terceira condição, no entanto, é subsumida por, mas relaxada na teoria DS:

Por exemplo, um Bayesiano modelaria a cor de um carro como uma distribuição de probabilidade (vermelho, verde, azul), atribuindo um número para cada cor. Dempster – Shafer atribuiria números a cada um (vermelho, verde, azul, (vermelho ou verde), (vermelho ou azul), (verde ou azul), (vermelho ou verde ou azul)) que não precisam ser coerentes, pois exemplo Bel (vermelho) + Bel (verde)! = Bel (vermelho ou verde). Isso pode ser computacionalmente mais eficiente se uma testemunha relatar "Eu vi que o carro era azul ou verde", caso em que a crença pode ser atribuída em uma única etapa, em vez de decompor em valores para duas cores diferentes. No entanto, isso pode levar a conclusões irracionais.

De forma equivalente, cada uma das seguintes condições define o caso especial bayesiano da teoria DS:

  • Para o X finito , todos os elementos focais da função de crença são singletons.

A probabilidade condicional de Bayes é um caso especial da regra de combinação de Dempster.

Tem sido argumentado que a teoria DS fornece uma distinção mais clara entre incerteza epistêmica e incerteza física do que a teoria Bayesiana. Por exemplo, a altura de uma pessoa não observada de uma população pode ter uma distribuição de crença gaussiana com alta variância, mas a teoria Bayesiana obtém a mesma distribuição no caso em que todas as pessoas têm a mesma altura, mas poucos dados estão disponíveis sobre qual é essa altura , como no caso em que existe uma ampla gama de alturas fisicamente diferentes na população. A teoria bayesiana padrão pode levar a decisões subótimas se essa diferença não for levada em consideração usando a probabilidade de segunda ordem e o maquinário para estimar as utilidades das ações de coleta de informações.

Também foi argumentado que a teoria DS não é uma generalização da teoria Bayesiana.

Aproximação bayesiana

A aproximação bayesiana reduz um dado bpa a uma distribuição de probabilidade (discreta), ou seja, apenas subconjuntos singleton do quadro de discernimento podem ser elementos focais da versão aproximada de :

É útil para aqueles que estão interessados ​​apenas na hipótese de estado único.

Podemos executá-lo no exemplo 'light'.

Hipótese
Nulo 0 0 0 0 0 0
vermelho 0,35 0,11 0,32 0,41 0,30 0,37
Amarelo 0,25 0,21 0,33 0,33 0,38 0,38
Verde 0,15 0,33 0,24 0,25 0,32 0,25
Vermelho ou amarelo 0,06 0,21 0,07 0 0 0
Vermelho ou verde 0,05 0,01 0,01 0 0 0
Amarelo ou verde 0,04 0,03 0,01 0 0 0
Algum 0,1 0,1 0,02 0 0 0

Crítica

Judea Pearl (1988a, capítulo 9; 1988b e 1990) argumentou que é enganoso interpretar funções de crença como representando "probabilidades de um evento" ou "a confiança que se tem nas probabilidades atribuídas a vários resultados" ou "graus de crença (ou confiança) em uma proposição "ou" grau de ignorância em uma situação. " Em vez disso, as funções de crença representam a probabilidade de que uma determinada proposição seja demonstrável a partir de um conjunto de outras proposições, às quais são atribuídas probabilidades. Confundir probabilidades de verdade com probabilidades de provabilidade pode levar a resultados contra-intuitivos em tarefas de raciocínio como (1) representar conhecimento incompleto, (2) atualização de crenças e (3) combinação de evidências. Ele demonstrou ainda que, se o conhecimento parcial é codificado e atualizado por métodos de função de crença, as crenças resultantes não podem servir de base para decisões racionais.

Kłopotek e Wierzchoń propuseram interpretar a teoria de Dempster-Shafer em termos de estatísticas de tabelas de decisão (da teoria dos conjuntos brutos ), em que o operador de combinação de evidências deve ser visto como junção relacional de tabelas de decisão. Em outra interpretação, MA Kłopotek e ST Wierzchoń propõem ver esta teoria como descrevendo o processamento destrutivo de materiais (sob perda de propriedades), por exemplo, como em alguns processos de produção de semicondutores. Em ambas as interpretações, o raciocínio em DST dá resultados corretos, ao contrário das interpretações probabilísticas anteriores, criticadas por Pearl nos artigos citados e por outros pesquisadores.

Jøsang provou que a regra de combinação de Dempster é, na verdade, um método para fundir restrições de crença. Ele apenas representa um operador de fusão aproximado em outras situações, como fusão cumulativa de crenças, mas geralmente produz resultados incorretos em tais situações. A confusão em torno da validade da regra de Dempster, portanto, origina-se na falha em interpretar corretamente a natureza das situações a serem modeladas. A regra de combinação de Dempster sempre produz resultados corretos e intuitivos em situações de fusão de restrições de crença de diferentes fontes.

Medidas relacionais

Ao considerar as preferências, pode-se usar a ordem parcial de uma rede em vez da ordem total da linha real encontrada na teoria de Dempster-Schafer. Na verdade, Gunther Schmidt propôs essa modificação e descreveu o método.

Dado um conjunto de critérios C e uma rede L com ordenação E , Schmidt define uma medida relacional μ da potência definida em C em L que respeita a ordem Ω em ( C ): As ferramentas do cálculo de relações , incluindo composição de relações , são usados ​​para expressar este respeito:

  μ leva o subconjunto vazio de ( C ) para o elemento de menos de G , e leva C para o maior elemento de L .

Schmidt compara μ com a função de crença de Schafer e também considera um método de combinação de medidas generalizando a abordagem de Dempster (quando novas evidências são combinadas com evidências anteriormente mantidas). Ele também introduz uma integral relacional e a compara com a integral de Choquet e a integral de Sugeno . Qualquer relação m entre C e L pode ser introduzida como uma "avaliação direta", então processada com o cálculo de relações para obter uma medida de possibilidade μ.

Veja também

Referências

Leitura adicional

links externos