Desvios mínimos absolutos - Least absolute deviations

Menores desvios absolutos ( LAD ), também conhecidos como mínimos erros absolutos ( LAE ), mínimo valor absoluto ( LAV ), mínimo residual absoluto ( LAR ), soma dos desvios absolutos , ou a condição de norma L ₁ , é um critério de otimalidade estatística e o técnica de otimização estatística que depende dela. Semelhante à técnica dos mínimos quadrados , ela tenta encontrar uma função que se aproxime muito de um conjunto de dados. No caso simples de um conjunto de dados ( x , y ), a função de aproximação é uma "linha de tendência" simples em coordenadas cartesianas bidimensionais . O método minimiza a soma dos erros absolutos (SAE) (a soma dos valores absolutos dos "resíduos" verticais entre os pontos gerados pela função e os pontos correspondentes nos dados). A estimativa de menores desvios absolutos também surge como a estimativa de máxima verossimilhança se os erros tiverem uma distribuição de Laplace . Foi introduzido em 1757 por Roger Joseph Boscovich .

Formulação

Suponha que o conjunto de dados consista nos pontos ( x _i , y _i ) com i = 1, 2, ..., n . Queremos encontrar uma função f tal que ${\ displaystyle f (x_ {i}) \ aprox y_ {i}.}$

Para atingir esse objetivo, supomos que a função f tem uma forma particular contendo alguns parâmetros que precisam ser determinados. Por exemplo, a forma mais simples seria linear: f ( x ) = bx + c , em que b e c são parâmetros cujos valores não são conhecidos, mas que gostaríamos de estimar. Menos simplesmente, suponhamos que f ( x ) é quadrática , o que significa que f ( x ) = ax ² + bx + c , onde um , b e c ainda não são conhecidos. (De maneira mais geral, pode haver não apenas um explicador x , mas vários explicadores, todos aparecendo como argumentos da função f .)

Agora buscamos valores estimados dos parâmetros desconhecidos que minimizam a soma dos valores absolutos dos resíduos:

{\ displaystyle S = \ sum _ {i = 1} ^ {n} | y_ {i} -f (x_ {i}) |.}

Solução

Embora a ideia de regressão de mínimos desvios absolutos seja tão direta quanto a de regressão de mínimos quadrados, a linha de mínimos desvios absolutos não é tão simples de calcular com eficiência. Ao contrário da regressão de mínimos quadrados, a regressão de mínimos desvios absolutos não tem um método de solução analítico. Portanto, uma abordagem iterativa é necessária. A seguir está uma enumeração de alguns métodos de solução de desvios mínimos absolutos.

Métodos baseados em simplex (como o algoritmo Barrodale-Roberts)
- Como o problema é um programa linear , qualquer uma das muitas técnicas de programação linear (incluindo o método simplex, bem como outros) pode ser aplicada.
Mínimos quadrados ponderados iterativamente
Método de descida direta de Wesolowsky
Abordagem de máxima verossimilhança de Li-Arce
Abordagem de redução recursiva da dimensionalidade
Verifique todas as combinações de linhas ponto a ponto para a soma mínima de erros

Os métodos baseados em simplex são a maneira “preferida” de resolver o problema de desvios mínimos absolutos. Um método Simplex é um método para resolver um problema de programação linear. O algoritmo mais popular é o algoritmo Simplex modificado de Barrodale-Roberts. Os algoritmos para IRLS, Método de Wesolowsky e Método de Li podem ser encontrados no Apêndice A, entre outros métodos. Verificar todas as combinações de linhas que cruzam quaisquer dois pontos de dados (x, y) é outro método de encontrar a linha de menor desvio absoluto. Como é sabido que pelo menos uma linha de desvios absolutos atravessa pelo menos dois pontos de dados, este método encontrará uma linha comparando o SAE (menor erro absoluto sobre pontos de dados) de cada linha e escolhendo a linha com o menor SAE. Além disso, se várias linhas tiverem o mesmo SAE menor, as linhas delinearão a região de várias soluções. Embora simples, este método final é ineficiente para grandes conjuntos de dados.

Usando programação linear

O problema pode ser resolvido usando qualquer técnica de programação linear na seguinte especificação do problema. Nós desejamos

{\ displaystyle {\ text {Minimize}} \ sum _ {i = 1} ^ {n} | y_ {i} -a_ {0} -a_ {1} x_ {i1} -a_ {2} x_ {i2} - \ cdots -a_ {k} x_ {ik} |}

no que diz respeito à escolha dos valores dos parâmetros , onde y _i é o valor da i ^ésima observação da variável dependente, e x _ij é o valor da i ^ésima observação da j ^ésima variável independente ( j = 1, ..., k ). Reescrevemos este problema em termos de variáveis artificiais u _i como ${\ displaystyle a_ {0}, \ ldots, a_ {k}}$

{\ displaystyle {\ text {Minimize}} \ sum _ {i = 1} ^ {n} u_ {i}}

com respeito a e

{\ displaystyle a_ {0}, \ ldots, a_ {k}}

{\ displaystyle u_ {1}, \ ldots, u_ {n}}

sujeito a

{\ displaystyle u_ {i} \ geq y_ {i} -a_ {0} -a_ {1} x_ {i1} -a_ {2} x_ {i2} - \ cdots -a_ {k} x_ {ik} \, \ \, \ \, \ \, \ \, \ {\ text {for}} i = 1, \ ldots, n}

{\ displaystyle u_ {i} \ geq - [y_ {i} -a_ {0} -a_ {1} x_ {i1} -a_ {2} x_ {i2} - \ cdots -a_ {k} x_ {ik} ] \, \ \, \ {\ text {para}} i = 1, \ ldots, n.}

Essas restrições têm o efeito de forçar cada um a igualar ao serem minimizados, de modo que a função objetivo é equivalente à função objetivo original. Como esta versão da definição do problema não contém o operador de valor absoluto, ela está em um formato que pode ser resolvido com qualquer pacote de programação linear. ${\ displaystyle u_ {i}}$ ${\ displaystyle | y_ {i} -a_ {0} -a_ {1} x_ {i1} -a_ {2} x_ {i2} - \ cdots -a_ {k} x_ {ik} |}$

Propriedades

Existem outras propriedades únicas da linha de desvios mínimos absolutos. No caso de um conjunto de dados ( x , y ), a linha de menor desvio absoluto sempre passará por pelo menos dois dos pontos de dados, a menos que haja várias soluções. Se houver várias soluções, a região de soluções de desvios absolutos mínimos válidos será limitada por pelo menos duas linhas, cada uma das quais passa por pelo menos dois pontos de dados. De modo mais geral, se houver k regressores (incluindo a constante), pelo menos uma superfície de regressão ótima passará por k dos pontos de dados.

Este "travamento" da linha para os pontos de dados pode ajudar a entender a propriedade "instabilidade": se a linha sempre travar em pelo menos dois pontos, então a linha saltará entre diferentes conjuntos de pontos conforme os pontos de dados são alterados. O "travamento" também ajuda a entender a propriedade de "robustez": se houver um outlier, e uma linha de desvios mínimos absolutos deve travar em dois pontos de dados, o outlier provavelmente não será um desses dois pontos porque isso não minimizará a soma dos desvios absolutos na maioria dos casos.

Um caso conhecido em que existem várias soluções é um conjunto de pontos simétricos em torno de uma linha horizontal, conforme mostrado na Figura A abaixo.

Figura A: Um conjunto de pontos de dados com simetria de reflexão e várias soluções de desvios mínimos absolutos. A “área de solução” é mostrada em verde. As linhas azuis verticais representam os erros absolutos da linha rosa para cada ponto de dados. A linha rosa é uma das infinitas soluções dentro da área verde.

Para entender por que existem várias soluções no caso mostrado na Figura A, considere a linha rosa na região verde. Sua soma de erros absolutos é algum valor S. Se alguém inclinasse a linha ligeiramente para cima, mantendo-a dentro da região verde, a soma dos erros ainda seria S. Não mudaria porque a distância de cada ponto até o a linha cresce em um lado da linha, enquanto a distância de cada ponto no lado oposto da linha diminui exatamente na mesma proporção. Assim, a soma dos erros absolutos permanece a mesma. Além disso, uma vez que se pode inclinar a linha em incrementos infinitamente pequenos, isso também mostra que, se houver mais de uma solução, haverá um número infinito de soluções.

Vantagens e desvantagens

A seguir está uma tabela contrastando algumas propriedades do método dos mínimos desvios absolutos com aquelas do método dos mínimos quadrados (para problemas não singulares).

Regressão de mínimos quadrados ordinários	Regressão de desvios mínimos absolutos
Não muito robusto	Robusto
Solução estável	Solução instável
Uma solução*	Possivelmente várias soluções

* Desde que o número de pontos de dados seja maior ou igual ao número de recursos.

O método dos mínimos desvios absolutos encontra aplicações em muitas áreas, devido à sua robustez em relação ao método dos mínimos quadrados. Os desvios absolutos mínimos são robustos por serem resistentes a outliers nos dados. O LAD dá igual ênfase a todas as observações, em contraste com os mínimos quadrados ordinários (OLS) que, ao elevar os resíduos ao quadrado, dá mais peso aos resíduos grandes, ou seja, outliers nos quais os valores previstos estão longe das observações reais. Isso pode ser útil em estudos em que os outliers não precisam receber maior peso do que outras observações. Se for importante dar maior peso aos outliers, o método dos mínimos quadrados é uma escolha melhor.

Variações, extensões, especializações

Se na soma dos valores absolutos dos resíduos generalizar a função de valor absoluto para uma função de valor absoluto inclinado, que na meia-linha esquerda tem inclinação e na meia-linha direita tem inclinação , onde se obtém a regressão de quantis . O caso de fornece a regressão padrão por mínimos desvios absolutos e também é conhecido como regressão mediana. ${\ displaystyle \ tau -1}$ ${\ displaystyle \ tau}$ ${\ displaystyle 0 <\ tau <1}$ ${\ displaystyle \ tau = 1/2}$

O problema de menor desvio absoluto pode ser estendido para incluir vários explicadores, restrições e regularização , por exemplo, um modelo linear com restrições lineares:

minimizar

{\ displaystyle S (\ mathbf {\ beta}, b) = \ sum _ {i} | \ mathbf {x} '_ {i} \ mathbf {\ beta} + b-y_ {i} |}

sujeito a, por exemplo,

{\ displaystyle \ mathbf {x} '_ {1} \ mathbf {\ beta} + b-y_ {1} \ leq k}

em que é um vector de coeficientes de coluna a ser estimada, b é um interceptar a ser estimada, x _i é um vector de coluna dos i ^th observações sobre as várias explanators, y _i é o i ^th observação sobre a variável dependente, e k é uma constante conhecida. ${\ displaystyle \ mathbf {\ beta}}$

A regularização com LASSO também pode ser combinada com LAD.

Veja também

Referências

Leitura adicional

Peter Bloomfield e William Steiger (1980). "Ajuste da Curva de Desvios Mínimos Absolutos". SIAM Journal on Scientific Computing . 1 (2): 290–301. doi : 10.1137 / 0901019 .
Subhash C. Narula e John F. Wellington (1982). "A soma mínima da regressão de erros absolutos: Um levantamento do estado da arte". Revisão Estatística Internacional . 50 (3): 317–326. doi : 10.2307 / 1402501 . JSTOR 1402501 .
Robert F. Phillips (julho de 2002). "Estimativa dos mínimos desvios absolutos através do algoritmo EM". Estatística e computação . 12 (3): 281–285. doi : 10.1023 / A: 1020759012226 .
Enno Siemsen e Kenneth A. Bollen (2007). "Estimativa de menor desvio absoluto na modelagem de equações estruturais". Métodos Sociológicos e Pesquisa . 36 (2): 227–265. doi : 10.1177 / 0049124107301946 .

Languages

In other projects