Estatísticas robustas - Robust statistics

Estatísticas robustas são estatísticas com bom desempenho para dados extraídos de uma ampla gama de distribuições de probabilidade , especialmente para distribuições que não são normais . Métodos estatísticos robustos foram desenvolvidos para muitos problemas comuns, como estimativa de localização , escala e parâmetros de regressão . Uma motivação é produzir métodos estatísticos que não sejam afetados indevidamente por outliers . Outra motivação é fornecer métodos com bom desempenho quando houver pequenos desvios da distribuição paramétrica . Por exemplo, métodos robustos funcionam bem para misturas de duas distribuições normais com diferentes desvios-padrão ; sob este modelo, métodos não robustos como um teste t funcionam mal.

Introdução

Estatísticas robustas buscam fornecer métodos que emulem métodos estatísticos populares, mas que não sejam afetados indevidamente por valores discrepantes ou outros pequenos desvios das suposições do modelo . Em estatística, os métodos clássicos de estimativa baseiam-se fortemente em suposições que muitas vezes não são atendidas na prática. Em particular, é freqüentemente assumido que os erros de dados são normalmente distribuídos, pelo menos aproximadamente, ou que o teorema do limite central pode ser usado para produzir estimativas normalmente distribuídas. Infelizmente, quando há outliers nos dados, os estimadores clássicos geralmente têm um desempenho muito ruim, quando julgados usando o ponto de quebra e a função de influência , descritos abaixo.

O efeito prático dos problemas vistos na função de influência pode ser estudado empiricamente examinando a distribuição amostral dos estimadores propostos sob um modelo de mistura , onde se mistura em uma pequena quantidade (1–5% é frequentemente suficiente) de contaminação. Por exemplo, pode-se usar uma mistura de 95% de uma distribuição normal e 5% de uma distribuição normal com a mesma média, mas com desvio padrão significativamente mais alto (representando outliers).

Estatísticas paramétricas robustas podem ocorrer de duas maneiras:

  • projetando estimadores de modo que um comportamento pré-selecionado da função de influência seja alcançado
  • substituindo estimadores que são ótimos sob a suposição de uma distribuição normal por estimadores que são ótimos para, ou pelo menos derivados para, outras distribuições: por exemplo, usando a distribuição t com baixos graus de liberdade (curtose alta; graus de liberdade entre 4 e 6 foram frequentemente considerados úteis na prática) ou com uma mistura de duas ou mais distribuições.

Estimativas robustas foram estudadas para os seguintes problemas:

Definição

Existem várias definições de uma " estatística robusta ". A rigor, uma estatística robusta é resistente a erros nos resultados, produzidos por desvios de suposições (por exemplo, de normalidade). Isso significa que, se as premissas forem atendidas apenas aproximadamente, o estimador robusto ainda terá uma eficiência razoável e viés razoavelmente pequeno , além de ser assintoticamente não tendencioso , o que significa ter um viés tendendo para 0 conforme o tamanho da amostra tende para o infinito.

Normalmente, o caso mais importante é a robustez distributiva - robustez para quebrar as suposições sobre a distribuição subjacente dos dados. Os procedimentos estatísticos clássicos são tipicamente sensíveis a "longtailedness" (por exemplo, quando a distribuição dos dados tem caudas mais longas do que a distribuição normal assumida). Isso implica que eles serão fortemente afetados pela presença de outliers nos dados, e as estimativas que eles produzem podem ser fortemente distorcidas se houver outliers extremos nos dados, em comparação com o que seriam se os outliers não fossem incluídos nos dados .

Em contraste, estimadores mais robustos que não são tão sensíveis a distorções distributivas, como longtailedness, também são resistentes à presença de outliers. Assim, no contexto de estatísticas robustas, robustez da distribuição e resistente a valores discrepantes são efetivamente sinônimos. Para uma perspectiva sobre a pesquisa em estatísticas robustas até 2000, ver Portnoy & He (2000) .

Alguns especialistas preferem o termo estatística resistente para robustez distribucional e reservam 'robustez' para robustez não distributiva, por exemplo, robustez para violação de suposições sobre o modelo de probabilidade ou estimador, mas este é um uso minoritário. 'Robustez' simples para significar 'robustez distribucional' é comum.

Ao considerar o quão robusto um estimador é para a presença de outliers, é útil testar o que acontece quando um outlier extremo é adicionado ao conjunto de dados e para testar o que acontece quando um outlier extremo substitui um dos datapoints existentes, e então considerar o efeito de múltiplas adições ou substituições.

Exemplos

A média não é uma medida robusta de tendência central . Se o conjunto de dados for, por exemplo, os valores {2,3,5,6,9}, então se adicionarmos outro ponto de dados com valor -1000 ou +1000 aos dados, a média resultante será muito diferente da média dos dados originais . Da mesma forma, se substituirmos um dos valores por um ponto de dados de valor -1000 ou +1000, a média resultante será muito diferente da média dos dados originais.

A mediana é uma medida robusta de tendência central . Tomando o mesmo conjunto de dados {2,3,5,6,9}, se adicionarmos outro ponto de dados com valor -1000 ou +1000, a mediana mudará ligeiramente, mas ainda será semelhante à mediana dos dados originais. Se substituirmos um dos valores por um ponto de dados de valor -1000 ou +1000, a mediana resultante ainda será semelhante à mediana dos dados originais.

Descrita em termos de pontos de desagregação , a mediana tem um ponto de desagregação de 50%, o que significa que metade dos pontos devem ser outliers antes que a mediana possa ser movida para fora do intervalo dos não outliers, enquanto a média tem um ponto de desagregação de 0, como uma única grande observação pode confundi-lo.

O desvio absoluto mediano e o intervalo interquartil são medidas robustas de dispersão estatística , enquanto o desvio padrão e o intervalo não são.

Estimadores aparados e estimadores Winsorizados são métodos gerais para tornar as estatísticas mais robustas. Os estimadores L são uma classe geral de estatísticas simples, frequentemente robustas, enquanto os estimadores M são uma classe geral de estatísticas robustas e agora são a solução preferida, embora possam ser bastante complicados para calcular.

Exemplo: dados de velocidade da luz

Gelman et al. em Bayesian Data Analysis (2004) considere um conjunto de dados relacionados a medições de velocidade da luz feitas por Simon Newcomb . Os conjuntos de dados desse livro podem ser encontrados na página de conjuntos de dados Clássicos e o site do livro contém mais informações sobre os dados.

Embora a maior parte dos dados pareça ser mais ou menos distribuída normalmente, há dois outliers óbvios. Esses valores discrepantes têm um grande efeito sobre a média, arrastando-a em sua direção e afastando-a do centro da maior parte dos dados. Assim, se a média é pretendida como uma medida da localização do centro dos dados, ela é, de certo modo, enviesada quando há outliers.

Além disso, a distribuição da média é conhecida como assintoticamente normal devido ao teorema do limite central. No entanto, os valores discrepantes podem tornar a distribuição da média não normal, mesmo para conjuntos de dados bastante grandes. Além dessa não normalidade, a média também é ineficiente na presença de outliers e estão disponíveis medidas de localização menos variáveis.

Estimativa de localização

O gráfico abaixo mostra um gráfico de densidade dos dados de velocidade da luz, junto com um gráfico de tapete (painel (a)). Também é mostrado um gráfico Q – Q normal (painel (b)). Os outliers são claramente visíveis nesses gráficos.

Os painéis (c) e (d) do gráfico mostram a distribuição bootstrap da média (c) e a média aparada a 10% (d). A média aparada é um estimador robusto simples de localização que exclui uma certa porcentagem de observações (10% aqui) de cada extremidade dos dados e, em seguida, calcula a média da maneira usual. A análise foi realizada em R e 10.000 amostras bootstrap foram usadas para cada uma das médias brutas e aparadas.

A distribuição da média é claramente muito mais ampla do que a média aparada de 10% (os gráficos estão na mesma escala). Além disso, enquanto a distribuição da média aparada parece estar próxima do normal, a distribuição da média bruta é bastante enviesada para a esquerda. Portanto, nesta amostra de 66 observações, apenas 2 outliers tornam o teorema do limite central inaplicável.

SpeedOfLight.png

Métodos estatísticos robustos, dos quais a média aparada é um exemplo simples, buscam superar os métodos estatísticos clássicos na presença de valores discrepantes ou, mais geralmente, quando as suposições paramétricas subjacentes não são totalmente corretas.

Embora a média aparada tenha um bom desempenho em relação à média neste exemplo, melhores estimativas robustas estão disponíveis. Na verdade, a média, a mediana e a média aparada são todos casos especiais de estimadores-M . Os detalhes aparecem nas seções abaixo.

Estimativa de escala

Os valores discrepantes nos dados de velocidade da luz têm mais do que apenas um efeito adverso na média; a estimativa usual da escala é o desvio padrão, e essa quantidade é ainda mais afetada pelos valores discrepantes porque os quadrados dos desvios da média entram no cálculo, de modo que os efeitos dos valores discrepantes são exacerbados.

Os gráficos abaixo mostram as distribuições bootstrap do desvio padrão, o desvio absoluto mediano (MAD) e o estimador de escala Rousseeuw – Croux (Qn) . Os gráficos são baseados em 10.000 amostras de bootstrap para cada estimador, com algum ruído gaussiano adicionado aos dados reamostrados ( bootstrap suavizado ). O painel (a) mostra a distribuição do desvio padrão, (b) da MAD e (c) de Qn.

SpeedOfLightScale.png

A distribuição do desvio padrão é errática e ampla, resultado dos outliers. O MAD se comporta melhor e o Qn é um pouco mais eficiente do que o MAD. Este exemplo simples demonstra que quando outliers estão presentes, o desvio padrão não pode ser recomendado como uma estimativa de escala.

Triagem manual para outliers

Tradicionalmente, os estatísticos selecionavam manualmente os dados em busca de valores discrepantes e os removiam, geralmente verificando a origem dos dados para ver se os valores discrepantes foram registrados incorretamente. De fato, no exemplo de velocidade da luz acima, é fácil ver e remover os dois outliers antes de prosseguir com qualquer análise posterior. No entanto, nos tempos modernos, os conjuntos de dados geralmente consistem em um grande número de variáveis ​​sendo medidas em um grande número de unidades experimentais. Portanto, a triagem manual de outliers costuma ser impraticável.

Frequentemente, os outliers podem interagir de forma a mascarar uns aos outros. Como um exemplo simples, considere um pequeno conjunto de dados univariados contendo um modesto e um grande outlier. O desvio padrão estimado será grosseiramente inflado pelo grande valor discrepante. O resultado é que o valor discrepante modesto parece relativamente normal. Assim que o valor discrepante grande é removido, o desvio padrão estimado diminui e o valor discrepante modesto agora parece incomum.

Esse problema de mascaramento fica pior à medida que a complexidade dos dados aumenta. Por exemplo, em problemas de regressão , gráficos de diagnóstico são usados ​​para identificar outliers. No entanto, é comum que, uma vez que alguns outliers tenham sido removidos, outros se tornem visíveis. O problema é ainda pior em dimensões superiores.

Métodos robustos fornecem maneiras automáticas de detecção, redução (ou remoção) e sinalização de outliers, eliminando em grande parte a necessidade de triagem manual. Cuidado deve ser tomado; os dados iniciais mostrando o buraco na camada de ozônio aparecendo pela primeira vez na Antártica foram rejeitados como outliers por triagem não humana.

Variedade de aplicações

Embora este artigo trate de princípios gerais para métodos estatísticos univariados, também existem métodos robustos para problemas de regressão, modelos lineares generalizados e estimativa de parâmetros de várias distribuições.

Medidas de robustez

As ferramentas básicas usadas para descrever e medir a robustez são o ponto de ruptura , a função de influência e a curva de sensibilidade .

Ponto de decomposição

Intuitivamente, o ponto de ruptura de um estimador é a proporção de observações incorretas (por exemplo, observações arbitrariamente grandes) que um estimador pode manipular antes de fornecer um resultado incorreto (por exemplo, arbitrariamente grande). Normalmente, o limite assintótico (amostra infinita) é citado como o ponto de quebra, embora o ponto de quebra de amostra finita possa ser mais útil. Por exemplo, dadas as variáveis ​​aleatórias independentes e as realizações correspondentes , podemos usar para estimar a média. Esse estimador tem um ponto de quebra de 0 (ou ponto de quebra de amostra finita de ) porque podemos tornar arbitrariamente grande apenas alterando qualquer um de .

Quanto mais alto o ponto de decomposição de um estimador, mais robusto ele é. Intuitivamente, podemos entender que um ponto de ruptura não pode ultrapassar 50% porque se mais da metade das observações estiverem contaminadas, não é possível distinguir entre a distribuição subjacente e a distribuição contaminante Rousseeuw & Leroy (1986) . Portanto, o ponto máximo de decomposição é 0,5 e existem estimadores que alcançam tal ponto de decomposição. Por exemplo, a mediana tem um ponto de decomposição de 0,5. A média aparada de X% possui ponto de decomposição de X%, para o nível escolhido de X. Huber (1981) e Maronna, Martin & Yohai (2006) contêm mais detalhes. O nível e os pontos de quebra de potência dos testes são investigados em He, Simpson & Portnoy (1990) .

As estatísticas com altos pontos de decomposição às vezes são chamadas de estatísticas resistentes.

Exemplo: dados de velocidade da luz

No exemplo da velocidade da luz, a remoção das duas observações mais baixas faz com que a média mude de 26,2 para 27,75, uma mudança de 1,55. A estimativa da escala produzida pelo método Qn é de 6,3. Podemos dividir isso pela raiz quadrada do tamanho da amostra para obter um erro padrão robusto e descobrimos que essa quantidade é 0,78. Assim, a mudança na média resultante da remoção de dois outliers é aproximadamente duas vezes o erro padrão robusto.

A média aparada de 10% para os dados de velocidade da luz é 27,43. Remover as duas observações mais baixas e recomputar dá 27,67. Claramente, a média aparada é menos afetada pelos valores discrepantes e tem um ponto de decomposição mais alto.

Se substituirmos a observação mais baixa, −44, por −1000, a média se torna 11,73, enquanto a média aparada de 10% ainda é 27,43. Em muitas áreas de estatísticas aplicadas, é comum que os dados sejam transformados em log para torná-los quase simétricos. Valores muito pequenos tornam-se grandes negativos quando transformados em log, e os zeros tornam-se negativamente infinitos. Portanto, este exemplo é de interesse prático.

Função de influência empírica

Função biweight de Tukey

A função de influência empírica é uma medida da dependência do estimador no valor de qualquer um dos pontos da amostra. É uma medida sem modelo no sentido de que simplesmente depende do cálculo do estimador novamente com uma amostra diferente. À direita está a função biweight de Tukey, que, como veremos mais tarde, é um exemplo de como deve ser uma "boa" (em um sentido definido mais tarde) função de influência empírica.

Em termos matemáticos, uma função de influência é definida como um vetor no espaço do estimador, que por sua vez é definido para uma amostra que é um subconjunto da população:

  1. é um espaço de probabilidade,
  2. é um espaço mensurável (espaço de estado),
  3. é um espaço de parâmetro de dimensão ,
  4. é um espaço mensurável,

Por exemplo,

  1. é qualquer espaço de probabilidade,
  2. ,
  3. ,

A definição de uma função de influência empírica é: Let and are iid e é uma amostra dessas variáveis. é um estimador. Deixe . A função de influência empírica na observação é definida por:

O que isso realmente significa é que estamos substituindo o i- ésimo valor na amostra por um valor arbitrário e observando a saída do estimador. Alternativamente, o EIF é definido como o efeito (escalado por n + 1 em vez de n) no estimador de adicionar o ponto à amostra.

Função de influência e curva de sensibilidade

Em vez de confiar apenas nos dados, poderíamos usar a distribuição das variáveis ​​aleatórias. A abordagem é bastante diferente daquela do parágrafo anterior. O que estamos tentando fazer agora é ver o que acontece com um estimador quando mudamos ligeiramente a distribuição dos dados: ele assume uma distribuição e mede a sensibilidade à mudança nessa distribuição. Em contraste, a influência empírica assume um conjunto de amostras e mede a sensibilidade à mudança nas amostras.

Let Ser um subconvexo convexo do conjunto de todas as medidas sinalizadas finitas em . Queremos estimar o parâmetro de uma distribuição em . Seja o funcional o valor assintótico de alguma sequência de estimadores . Vamos supor que esse funcional seja consistente com Fisher , ou seja . Isso significa que, no modelo , a sequência do estimador mede assintoticamente a quantidade correta.

Deixe haver alguma distribuição em . O que acontece quando os dados não seguem exatamente o modelo, mas outro, ligeiramente diferente, "indo em direção" ?

Nós estamos olhando: ,

que é o derivado de Gateaux unilateral de at , na direção de .

Deixe . é a medida de probabilidade que dá a massa 1 a . Nós escolhemos . A função de influência é então definida por:

Descreve o efeito de uma contaminação infinitesimal no ponto da estimativa que buscamos, padronizada pela massa da contaminação (o viés assintótico causado pela contaminação nas observações). Para um estimador robusto, queremos uma função de influência limitada, ou seja, uma que não vá ao infinito à medida que x se torna arbitrariamente grande.

Propriedades desejáveis

As propriedades de uma função de influência que a conferem com desempenho desejável são:

  1. Ponto de rejeição finito ,
  2. Sensibilidade de pequeno erro grosseiro ,
  3. Sensibilidade de deslocamento local pequena .

Ponto de rejeição

Sensibilidade a erros grosseiros

Sensibilidade de deslocamento local

Este valor, que se parece muito com uma constante de Lipschitz , representa o efeito de deslocar uma observação ligeiramente de um ponto vizinho , ou seja, adicionar uma observação em e remover uma em .

Estimadores M

(O contexto matemático deste parágrafo é fornecido na seção sobre funções de influência empírica.)

Historicamente, várias abordagens para estimativa robusta foram propostas, incluindo estimadores-R e estimadores -L . No entanto, os estimadores-M agora parecem dominar o campo como resultado de sua generalidade, alto ponto de decomposição e sua eficiência. Veja Huber (1981) .

Os estimadores-M são uma generalização dos estimadores de máxima verossimilhança (MLEs). O que tentamos fazer com o MLE é maximizar ou, de forma equivalente, minimizar . Em 1964, Huber propôs generalizar isso para a minimização de , onde está alguma função. MLE são, por conseguinte, um caso especial de M-estimadores (daí o nome: " M tipo aximum probabilidade" estimadores).

A minimização geralmente pode ser feita diferenciando e resolvendo , onde (se tem uma derivada).

Várias opções de e foram propostas. As duas figuras abaixo mostram quatro funções e suas funções correspondentes .

RhoFunctions.png

Para erros quadrados, aumenta a uma taxa acelerada, enquanto para erros absolutos, aumenta a uma taxa constante. Quando o Winsorizing é usado, uma mistura desses dois efeitos é introduzida: para pequenos valores de x, aumenta na taxa quadrada, mas uma vez que o limite escolhido é alcançado (1,5 neste exemplo), a taxa de aumento se torna constante. Este estimador Winsorizado também é conhecido como função de perda de Huber .

A função biweight de Tukey (também conhecida como bisquare) se comporta de maneira semelhante à função de erro quadrada no início, mas para erros maiores, a função diminui gradualmente.

PsiFunctions.png

Propriedades dos estimadores-M

Os estimadores-M não estão necessariamente relacionados a uma função de densidade de probabilidade. Portanto, as abordagens prontas para a inferência que surgem da teoria da probabilidade não podem, em geral, ser usadas.

Pode-se mostrar que os estimadores-M são normalmente distribuídos assintoticamente, de modo que, desde que seus erros-padrão possam ser calculados, uma abordagem aproximada para inferência está disponível.

Uma vez que os estimadores M são normais apenas assintoticamente, para tamanhos de amostra pequenos pode ser apropriado usar uma abordagem alternativa para inferência, como o bootstrap. No entanto, as estimativas M não são necessariamente únicas (ou seja, pode haver mais de uma solução que satisfaça as equações). Além disso, é possível que qualquer amostra de bootstrap particular possa conter mais outliers do que o ponto de ruptura do estimador. Portanto, algum cuidado é necessário ao projetar esquemas de bootstrap.

Claro, como vimos com o exemplo da velocidade da luz, a média é apenas normalmente distribuída assintoticamente e quando valores discrepantes estão presentes, a aproximação pode ser muito pobre, mesmo para amostras bastante grandes. No entanto, os testes estatísticos clássicos, incluindo aqueles baseados na média, são normalmente limitados acima pelo tamanho nominal do teste. O mesmo não acontece com os estimadores-M e a taxa de erro do tipo I pode estar substancialmente acima do nível nominal.

Essas considerações não "invalidam" a estimativa M de forma alguma. Eles apenas deixam claro que é necessário algum cuidado em seu uso, como acontece com qualquer outro método de estimativa.

Função de influência de um estimador M

Pode ser mostrado que a função de influência de um estimador M é proporcional a , o que significa que podemos derivar as propriedades de tal estimador (como seu ponto de rejeição, sensibilidade ao erro bruto ou sensibilidade ao deslocamento local) quando conhecemos sua função .

com o dado por:

Escolha de ψ e ρ

Em muitas situações práticas, a escolha da função não é crítica para obter uma boa estimativa robusta, e muitas escolhas darão resultados semelhantes que oferecem grandes melhorias, em termos de eficiência e viés, em relação às estimativas clássicas na presença de outliers.

Teoricamente, as funções devem ser preferidas, e a função biweight de Tukey (também conhecida como bisquare) é uma escolha popular. Maronna, Martin & Yohai (2006) recomendam a função biweight com eficiência no conjunto normal de 85%.

Abordagens paramétricas robustas

Os estimadores-M não estão necessariamente relacionados a uma função de densidade e, portanto, não são totalmente paramétricos. Abordagens totalmente paramétricas para modelagem e inferência robustas, abordagens bayesianas e de probabilidade, geralmente lidam com distribuições de cauda pesada, como a distribuição t de Student.

Para a distribuição t com graus de liberdade, pode-se mostrar que

Pois , a distribuição t é equivalente à distribuição de Cauchy. Os graus de liberdade às vezes são conhecidos como parâmetro de curtose . É o parâmetro que controla o quão pesadas são as caudas. Em princípio, pode ser estimado a partir dos dados da mesma forma que qualquer outro parâmetro. Na prática, é comum haver múltiplos máximos locais quando é permitido variar. Como tal, é comum fixar um valor em torno de 4 ou 6. A figura abaixo exibe a função -para 4 valores diferentes de .

TDistPsi.png

Exemplo: dados de velocidade da luz

Para os dados de velocidade da luz, permitindo que o parâmetro de curtose varie e maximizando a probabilidade, obtemos

Fixar e maximizar a probabilidade dá

Conceitos relacionados

Uma quantidade central é uma função de dados, cuja distribuição de população subjacente é um membro de uma família paramétrica, que não é dependente dos valores dos parâmetros. Uma estatística auxiliar é uma função que também é uma estatística, o que significa que é calculada apenas em termos de dados. Tais funções são robustas aos parâmetros no sentido de que são independentes dos valores dos parâmetros, mas não são robustas ao modelo no sentido de que assumem um modelo subjacente (família paramétrica) e, de fato, tais funções são frequentemente muito sensíveis a violações dos pressupostos do modelo. Assim, as estatísticas de teste , frequentemente construídas em termos destes para não serem sensíveis às suposições sobre os parâmetros, ainda são muito sensíveis às suposições do modelo.

Substituindo outliers e valores ausentes

A substituição de dados ausentes é chamada de imputação . Se houver relativamente poucos pontos ausentes, existem alguns modelos que podem ser usados ​​para estimar valores para completar a série, como substituir os valores ausentes pela média ou mediana dos dados. A regressão linear simples também pode ser usada para estimar os valores ausentes. Além disso, os valores discrepantes às vezes podem ser acomodados nos dados por meio do uso de médias aparadas, outros estimadores de escala além do desvio padrão (por exemplo, MAD) e Winsorização. Nos cálculos de uma média aparada, uma porcentagem fixa de dados é eliminada de cada extremidade de um dado ordenado, eliminando assim os outliers. A média é então calculada usando os dados restantes. Winsorizing envolve acomodar um valor discrepante , substituindo-o pelo próximo valor mais alto ou o próximo menor, conforme apropriado.

No entanto, usar esses tipos de modelos para prever valores ausentes ou discrepantes em uma longa série de tempo é difícil e freqüentemente não confiável, especialmente se o número de valores a serem preenchidos for relativamente alto em comparação com o comprimento total do registro. A precisão da estimativa depende de quão bom e representativo é o modelo e por quanto tempo se estende o período de valores ausentes. No caso de um processo dinâmico, então qualquer variável é dependente, não apenas da série histórica da mesma variável, mas também de várias outras variáveis ​​ou parâmetros do processo. Em outras palavras, o problema é um exercício de análise multivariada, e não a abordagem univariada da maioria dos métodos tradicionais de estimativa de valores ausentes e outliers; um modelo multivariado será, portanto, mais representativo do que um modelo univariado para prever valores ausentes. O mapa auto-organizado de Kohonen (KSOM) oferece um modelo multivariado simples e robusto para a análise dos dados, proporcionando boas possibilidades para estimar os valores perdidos, levando em consideração sua relação ou correlação com outras variáveis ​​pertinentes no registro dos dados.

Os filtros Kalman padrão não são robustos para outliers. Para este fim , Ting, Theodorou & Schaal (2007) mostraram recentemente que uma modificação do teorema de Masreliez pode lidar com outliers.

Uma abordagem comum para lidar com outliers na análise de dados é realizar a detecção de outliers primeiro, seguida por um método de estimativa eficiente (por exemplo, os mínimos quadrados). Embora essa abordagem seja frequentemente útil, devemos ter em mente dois desafios. Em primeiro lugar, um método de detecção de outliers que depende de um ajuste inicial não robusto pode sofrer o efeito de mascaramento, ou seja, um grupo de outliers pode mascarar um ao outro e escapar da detecção. Em segundo lugar, se um ajuste inicial de alto detalhamento for usado para detecção de valores discrepantes, a análise de acompanhamento pode herdar algumas das ineficiências do estimador inicial.

Veja também

Notas

Referências

links externos