Estimativa de tendência linear - Linear trend estimation

A estimativa de tendência linear é uma técnica estatística para auxiliar na interpretação dos dados. Quando uma série de medições de um processo é tratada como, por exemplo, uma série de tempo , a estimativa de tendência pode ser usada para fazer e justificar declarações sobre tendências nos dados, relacionando as medições aos momentos em que ocorreram. Este modelo pode então ser usado para descrever o comportamento dos dados observados, sem explicá-lo. Nesse caso, a estimativa de tendência linear expressa os dados como uma função linear do tempo e também pode ser usada para determinar a significância das diferenças em um conjunto de dados vinculados por um fator categórico. Um exemplo deste último da ciência biomédica seriam os níveis de uma molécula no sangue ou tecidos de pacientes com doença que piora gradativamente - como leve, moderada e grave. Isso está em contraste com uma ANOVA , que é reservada para três ou mais grupos independentes (por exemplo, doenças cardíacas, câncer, artrite) (veja abaixo).

Em particular, pode ser útil determinar se as medições exibem uma tendência crescente ou decrescente que é estatisticamente distinta do comportamento aleatório . Alguns exemplos são a determinação da tendência das temperaturas médias diárias em um determinado local do inverno ao verão e a determinação da tendência em uma série de temperatura global nos últimos 100 anos. No último caso, as questões de homogeneidade são importantes (por exemplo, sobre se a série é igualmente confiável em toda a sua extensão).

Ajustando uma tendência: mínimos quadrados

Dado um conjunto de dados e o desejo de produzir algum tipo de modelo desses dados, há uma variedade de funções que podem ser escolhidas para o ajuste. Se não houver compreensão prévia dos dados, a função mais simples de ajustar é uma linha reta com os valores dos dados no eixo y e o tempo ( t = 1, 2, 3, ...) no eixo x.

Uma vez decidido o ajuste de uma linha reta, existem várias maneiras de fazê-lo, mas a escolha mais comum é um ajuste de mínimos quadrados . Este método minimiza a soma dos erros quadráticos na série de dados y .

Dado um conjunto de pontos no tempo e valores de dados observados para esses pontos no tempo, os valores de e são escolhidos de modo que

é minimizado. Aqui em + b está a linha de tendência, então a soma dos desvios quadrados da linha de tendência é o que está sendo minimizado. Isso sempre pode ser feito de forma fechada, pois se trata de uma regressão linear simples .

No restante deste artigo, “tendência” significará a inclinação da linha dos mínimos quadrados, uma vez que esta é uma convenção comum.

Tendências em dados aleatórios

Antes de considerar tendências em dados reais, é útil entender as tendências em dados aleatórios .

Os valores sombreados em vermelho são maiores que 99% do restante; azul, 95%; verde, 90%. Nesse caso, os valores de V discutidos no texto para (unilateral) 95% de confiança são vistos como 0,2.

Se uma série que é sabidamente aleatória é analisada - dados razoáveis ​​ou números pseudo-aleatórios gerados por computador - e uma linha de tendência é ajustada através dos dados, as chances de uma tendência estimada exatamente zero são desprezíveis. Mas espera-se que a tendência seja pequena. Se uma série individual de observações é gerada a partir de simulações que empregam uma determinada variação de ruído que é igual à variação observada de nossa série de dados de interesse e um determinado comprimento (digamos, 100 pontos), um grande número de tais séries simuladas (digamos, 100.000 séries) podem ser geradas. Essas 100.000 séries podem então ser analisadas individualmente para calcular as tendências estimadas em cada série, e esses resultados estabelecem uma distribuição das tendências estimadas que devem ser esperadas de tais dados aleatórios - consulte o diagrama. Essa distribuição será normal de acordo com o teorema do limite central, exceto em casos patológicos. Um nível de certeza estatística, S , pode agora ser selecionado - 95% de confiança é típico; 99% seria mais restrito, 90% mais flexível - e a seguinte pergunta pode ser feita: qual é o valor limite da tendência V que resultaria em S % das tendências entre - V e + V ?

O procedimento acima pode ser substituído por um teste de permutação . Para isso, o conjunto de 100.000 séries geradas seria substituído por 100.000 séries construídas ao embaralhar aleatoriamente as séries de dados observadas; claramente série construídos tal seria livre de tendência, assim como com a abordagem de utilizar os dados simulados estas séries pode ser usada para gerar tendência limítrofe valores V e - V .

Na discussão acima, a distribuição de tendências foi calculada por simulação, a partir de um grande número de tentativas. Em casos simples (ruído aleatório normalmente distribuído sendo um clássico), a distribuição de tendências pode ser calculada exatamente sem simulação.

O intervalo (- V , V ) pode ser empregado para decidir se uma tendência estimada a partir dos dados reais provavelmente não veio de uma série de dados que realmente tem uma tendência zero. Se o valor estimado do parâmetro de regressão a estiver fora dessa faixa, tal resultado poderia ter ocorrido na presença de uma tendência de zero verdadeiro apenas, por exemplo, uma vez em vinte se o valor de confiança S = 95% foi usado; neste caso, pode-se dizer que, no grau de certeza S , rejeitamos a hipótese nula de que a verdadeira tendência subjacente é zero.

No entanto, observe que qualquer valor de S que escolhermos, então uma dada fração, 1 -  S , de séries verdadeiramente aleatórias será declarada (falsamente, por construção) como tendo uma tendência significativa. Por outro lado, uma determinada fração da série que de fato tem uma tendência diferente de zero não será declarada como tendo uma tendência.

Dados como tendência mais ruído

Para analisar uma série (temporal) de dados, assumimos que ela pode ser representada como tendência mais ruído:

onde e são constantes desconhecidas e os são erros distribuídos aleatoriamente . Se alguém pode rejeitar a hipótese nula de que os erros são não estacionários , então a série não estacionária { y t } é chamada de tendência estacionária . O método dos mínimos quadrados assume que os erros são distribuídos independentemente com uma distribuição normal . Se este não for o caso, os testes de hipótese sobre os parâmetros desconhecidos a e b podem ser imprecisos. É mais simples se todos tiverem a mesma distribuição, mas se não (se alguns tiverem variância maior , o que significa que esses pontos de dados são efetivamente menos certos), isso pode ser levado em consideração durante o ajuste de mínimos quadrados, ponderando cada ponto pelo inverso da variância desse ponto.

Na maioria dos casos, onde existe apenas uma única série temporal para ser analisada, a variância de 's é estimada ajustando uma tendência para obter os valores dos parâmetros estimados e, assim, permitir os valores previstos.

a ser subtraído dos dados ( diminuindo assim os dados) e deixando os resíduos como os dados diminuídos , e estimando a variância de 's dos resíduos - esta é frequentemente a única maneira de estimar a variância de ' s.

Uma vez que conhecemos o "ruído" da série, podemos avaliar a significância da tendência, fazendo a hipótese nula de que a tendência,, não é diferente de 0. A partir da discussão acima sobre tendências em dados aleatórios com variância conhecida , nós conheça a distribuição das tendências calculadas que podem ser esperadas a partir de dados aleatórios (sem tendência). Se a tendência estimada,, for maior do que o valor crítico para um determinado nível de significância , a tendência estimada é considerada significativamente diferente de zero nesse nível de significância e a hipótese nula de tendência subjacente zero é rejeitada.

O uso de uma linha de tendência linear tem sido alvo de críticas, levando à busca por abordagens alternativas para evitar seu uso na estimação de modelos. Uma das abordagens alternativas envolve testes de raiz unitária e a técnica de cointegração em estudos econométricos.

O coeficiente estimado associado a uma variável de tendência linear, como o tempo, é interpretado como uma medida do impacto de uma série de fatores desconhecidos ou conhecidos, mas não mensuráveis, na variável dependente ao longo de uma unidade de tempo. Estritamente falando, essa interpretação é aplicável apenas para o período de tempo de estimativa. Fora desse intervalo de tempo, não se sabe como esses fatores incomensuráveis ​​se comportam qualitativa e quantitativamente. Além disso, a linearidade da tendência temporal levanta muitas questões:

(i) Por que deveria ser linear?

(ii) Se a tendência for não linear, então em que condições sua inclusão influencia a magnitude e também a significância estatística das estimativas de outros parâmetros no modelo?

(iii) A inclusão de uma tendência linear do tempo em um modelo impede, por suposição, a presença de flutuações nas tendências da variável dependente ao longo do tempo; isso é necessariamente válido em um determinado contexto?

(iv) E existe uma relação espúria no modelo porque uma variável causal subjacente é ela própria uma tendência temporal?

Resultados de pesquisas de matemáticos, estatísticos, econometristas e economistas foram publicados em resposta a essas perguntas. Por exemplo, notas detalhadas sobre o significado das tendências lineares do tempo no modelo de regressão são fornecidas em Cameron (2005); Granger, Engle e muitos outros econometristas escreveram sobre estacionariedade, teste de raiz unitária, co-integração e questões relacionadas (um resumo de alguns dos trabalhos nesta área pode ser encontrado em um documento informativo da Royal Swedish Academy of Sciences (2003) e Ho-Trieu & Tucker (1990) escreveram sobre tendências de tempo logarítmicas com resultados indicando tendências de tempo lineares são casos especiais de ciclos .

Exemplo: série temporal barulhenta

É mais difícil ver uma tendência em uma série temporal barulhenta. Por exemplo, se a série verdadeira é 0, 1, 2, 3, mais algum "ruído" e independente normalmente distribuído de desvio padrão  E , e temos uma série de amostra de comprimento 50, então, se E  = 0,1, a tendência será óbvia ; se E  = 100, a tendência provavelmente será visível; mas se E  = 10000, a tendência ficará oculta no ruído.

Se considerarmos um exemplo concreto, o registro da temperatura global da superfície dos últimos 140 anos apresentado pelo IPCC : então a variação interanual é de cerca de 0,2 ° C e a tendência de cerca de 0,6 ° C em 140 anos, com limites de confiança de 95% de 0,2 ° C (por coincidência, aproximadamente o mesmo valor da variação interanual). Portanto, a tendência é estatisticamente diferente de 0. No entanto, como observado em outro lugar, essa série de tempo não está de acordo com as suposições necessárias para que os mínimos quadrados sejam válidos.

Qualidade de ajuste ( r- quadrado) e tendência

Ilustração do efeito da filtragem em r 2 . Preto = dados não filtrados; vermelho = média dos dados a cada 10 pontos; azul = média dos dados a cada 100 pontos. Todos têm a mesma tendência, mas mais filtragem leva a um r 2 mais alto da linha de tendência ajustada.

O processo de ajuste de mínimos quadrados produz um valor - r-quadrado ( r 2 ) - que é 1 menos a razão da variância dos resíduos para a variância da variável dependente. Ele diz que fração da variância dos dados é explicada pela linha de tendência ajustada. Não se relaciona com a significância estatística da linha de tendência (ver gráfico); a significância estatística da tendência é determinada por sua estatística t . Freqüentemente, a filtragem de uma série aumenta r 2, mas faz pouca diferença para a tendência ajustada.

Dados reais podem precisar de modelos mais complicados

Até agora, os dados foram assumidos como consistindo na tendência mais ruído, com o ruído em cada ponto de dados sendo variáveis ​​aleatórias independentes e distribuídas de forma idêntica e tendo uma distribuição normal . Dados reais (por exemplo, dados climáticos) podem não cumprir esses critérios. Isso é importante, pois faz uma enorme diferença na facilidade com que as estatísticas podem ser analisadas para extrair o máximo de informações das séries de dados. Se houver outros efeitos não lineares que tenham uma correlação com a variável independente (como influências cíclicas), o uso da estimativa de mínimos quadrados da tendência não é válido. Além disso, quando as variações são significativamente maiores do que a tendência da linha reta resultante, a escolha dos pontos inicial e final pode alterar significativamente o resultado. Ou seja, o modelo é especificado matematicamente incorretamente . Inferências estatísticas (testes para a presença de tendência, intervalos de confiança para a tendência, etc.) são inválidas, a menos que os desvios dos pressupostos padrão sejam devidamente contabilizados, por exemplo, da seguinte forma:

Em R , a tendência linear nos dados pode ser estimada usando a função 'tslm' do pacote de 'previsão'.

Tendências em dados clínicos

Os estudos médicos e biomédicos freqüentemente procuram determinar uma ligação em conjuntos de dados, como (conforme indicado acima) três doenças diferentes. Mas os dados também podem estar ligados no tempo (como mudança no efeito de um medicamento desde o início, ao mês 1, ao mês 2), ou por um fator externo que pode ou não ser determinado pelo pesquisador e / ou seu sujeito (como nenhuma dor, dor leve, dor moderada, dor intensa). Nesses casos, seria de se esperar que a estatística do teste de efeito (por exemplo, influência de uma estatina nos níveis de colesterol , um analgésico no grau de dor ou doses crescentes de uma droga em um índice mensurável) mudasse em ordem direta conforme o efeito se desenvolvesse. Suponha que o nível médio de colesterol antes e depois da prescrição de uma estatina caia de 5,6 mmol / L no início do estudo para 3,4 mmol / L em um mês e para 3,7 mmol / L em dois meses. Com potência suficiente, uma ANOVA provavelmente encontraria uma queda significativa em um e dois meses, mas a queda não é linear. Além disso, um teste post-hoc pode ser necessário. Um teste alternativo pode ser ANOVA de medidas repetidas (dois fatores) ou teste de Friedman , dependendo da natureza dos dados. No entanto, como os grupos são ordenados, uma ANOVA padrão é inadequada. Se o colesterol cair de 5,4 para 4,1 para 3,7, há uma tendência linear clara. O mesmo princípio pode ser aplicado aos efeitos da frequência do alelo / genótipo , onde poderia ser argumentado que os SNPs nos nucleotídeos XX, XY, YY são de fato uma tendência de nenhum Y, um Y e depois dois Ys.

A matemática da estimativa de tendência linear é uma variante da ANOVA padrão, fornecendo informações diferentes, e seria o teste mais apropriado se os pesquisadores estivessem levantando a hipótese de um efeito de tendência em sua estatística de teste. Um exemplo [1] são os níveis de tripsina sérica em seis grupos de indivíduos ordenados por década de idade (10-19 anos até 60-69 anos). Os níveis de tripsina (ng / mL) aumentam em uma tendência linear direta de 128, 152, 194, 207, 215, 218. Sem surpresa, uma ANOVA "padrão" dá p  <0,0001, enquanto a estimativa de tendência linear dá p  = 0,00006. A propósito, pode-se argumentar que, como a idade é um índice natural continuamente variável, não deve ser categorizado em décadas, e um efeito da idade e da tripsina sérica deve ser procurado por correlação (assumindo que os dados brutos estejam disponíveis). Um outro exemplo é de uma substância medida em quatro pontos de tempo em grupos diferentes: média [SD] (1) 1,6 [0,56], (2) 1,94 [0,75], (3) 2,22 [0,66], (4) 2,40 [0,79 ], que é uma tendência clara. ANOVA dá p  = 0,091, porque a variância geral excede as médias, enquanto a estimativa de tendência linear dá p  = 0,012. No entanto, se os dados tivessem sido coletados em quatro pontos de tempo nos mesmos indivíduos, a estimativa de tendência linear seria inadequada e uma ANOVA de duas vias (medidas repetidas) aplicada.

Veja também

Notas

Referências

  • Bianchi, M .; Boyle, M .; Hollingsworth, D. (1999). "Uma comparação de métodos para estimativa de tendências". Cartas de Economia Aplicada . 6 (2): 103–109. doi : 10.1080 / 135048599353726 .
  • Cameron, S. (2005). "Tornando a análise de regressão mais útil, II". Econometria . Maidenhead: McGraw Hill Higher Education. pp. 171–198. ISBN 0077104285.
  • Chatfield, C. (1993). "Calculando as previsões de intervalo". Journal of Business and Economic Statistics . 11 (2): 121–135. doi : 10.1080 / 07350015.1993.10509938 .
  • Ho-Trieu, NL; Tucker, J. (1990). "Outra observação sobre o uso de uma tendência de tempo logarítmica". Revisão de Marketing e Economia Agrícola . 58 (1): 89–90. DOI: 10.22004 / ag.econ.12288
  • Kungl. Vetenskapsakademien (A Real Academia Sueca de Ciências) (2003). "Econometria de séries temporais: Cointegração e heterocedasticidade condicional autorregressiva". Informações avançadas sobre o Prêmio Banco da Suécia em Ciências Econômicas em Memória de Alfred Nobel .
  • Arianos, S .; Carbone, A .; Turk, C. (2011). "Auto-similaridade de médias móveis de alta ordem" . Physical Review E . 84 (4): 046113. doi : 10.1103 / physreve.84.046113 . PMID  22181233 .