regressão linear múltipla Bayesian - Bayesian multivariate linear regression

Em estatísticas , regressão linear múltipla Bayesiana é um Bayesiana abordagem para multivariada de regressão linear , ou seja, de regressão linear em que o resultado previsto é um vector de correlacionadas variáveis aleatórias , em vez de uma única variável aleatória escalar. Um tratamento mais geral desta abordagem pode ser encontrada no artigo estimador MMSE .

Conteúdo

1 Detalhes
- 1.1 Conjugado distribuição prévia
- 1,2 distribuição posterior
2 Veja também
3 Referências

detalhes

Considere-se um problema de regressão onde a variável dependente a ser previsto não é um único valor real escalar mas um m vetor -length de números reais correlacionados. Tal como na configuração de regressão padrão, existem n para observações, onde cada observação i consiste em k -1 variáveis explanatórias , agrupados num vector de comprimento k (em que uma variável binária com um valor de 1 foi adicionado para permitir a um coeficiente de intercepção ). Isto pode ser visto como um conjunto de m problemas de regressão relacionado para cada observação i : ${\ Displaystyle \ mathbf {x} _ {i}}$

{\ Displaystyle Y_ {i, 1} = \ mathbf {x} _ {i} ^ {\ rm {T}} {\ boldsymbol {\ beta}} _ {1} + \ epsilon _ {i, 1}}

{\ Displaystyle \ cdots}

{\ Displaystyle Y_ {i, m} = \ mathbf {x} _ {i} ^ {\ rm {T}} {\ boldsymbol {\ beta}} _ {m} + \ epsilon _ {i, m}}

onde o conjunto de erros estão correlacionados. De forma equivalente, pode ser visto como um único problema de regressão em que o resultado é um vector de linha e os vectores de coeficiente de regressão são empilhados ao lado do outro, como se segue: ${\ Displaystyle \ {\ epsilon _ {i, 1}, \ ldots, \ epsilon _ {i, m} \}}$ ${\ Displaystyle \ mathbf {y} _ {i} ^ {\ rm {T}}}$

{\ Displaystyle \ mathbf {y} _ {i} ^ {\ rm {T}} = \ mathbf {x} _ {i} ^ {\ rm {T}} \ mathbf {B} + {\ boldsymbol {\ epsilon }} _ {i} ^ {\ rm {T}}.}

A matriz dos coeficientes B é uma matriz em que os vectores de coeficiente para cada problema de regressão são empilhados horizontalmente: ${\ K \ displaystyle vezes m}$ ${\ Displaystyle {\ boldsymbol {\ beta}} _ {1}, \ ldots, {\ boldsymbol {\ beta}} _ {m}}$

{\ Displaystyle \ mathbf {B} = {\ {começar bmatrix} {\ {começar pmatrix} \\ {\ boldsymbol {\ beta}} _ {1} \\\\\ finais {pmatrix}} \ cdots {\ começar {pmatrix} \\ {\ boldsymbol {\ beta}} _ {m} \\\\\ final {pmatrix}} \ final {bmatrix}} = {\ {começar bmatrix} {\ {começar pmatrix} \ _ {beta 1,1} \\\ vdots \\\ beta _ {k, 1} \\\ final {pmatrix}} \ cdots {\ {começar pmatrix} \ beta _ {1, m} \\\ vdots \\\ beta _ {k, m} \\\ final {pmatrix}} \ final {bmatrix}}.}

O vector de ruído para cada observação i é solidariamente normal, de modo que os resultados para uma determinada observação estão correlacionadas: ${\ Displaystyle {\ boldsymbol {\ epsilon}} _ {i}}$

{\ Displaystyle {\ boldsymbol {\ epsilon}} _ {i} \ sim N (0, {\ boldsymbol {\ Sigma}} _ {\ epsilon}).}

Podemos escrever todo o problema de regressão na forma matricial como:

{\ Displaystyle \ mathbf {Y} = \ mathbf {X} \ mathbf {B} + \ mathbf {E},}

onde Y e E são matrizes. A matriz de design X é uma matriz com as observações empilhados verticalmente, como no padrão de regressão linear de configuração: ${\ N \ displaystyle vezes m}$ ${\ N \ displaystyle vezes k}$

{\ Displaystyle \ mathbf {X} = {\ begin {bmatrix} \ mathbf {x} _ {1} ^ {\ rm {T}} \\\ mathbf {x} _ {2} ^ {\ rm {T} } \\\ vdots \\\ mathbf {x} _ {n} ^ {\ rm {T}} \ final {bmatrix}} = {\ {começar bmatrix} x_ {1,1} & \ & cdots x_ {1, k} \\ x_ {2,1} & \ & cdots x_ {2, k} \\\ vdots & \ ddots & \ \\ vdots x_ {n, 1} & \ & cdots x_ {n, k} \ final {bmatrix }}.}

O clássico, frequentistas lineares mínimos quadrados solução é simplesmente estimar a matriz de coeficientes de regressão utilizando o Moore-Penrose pseudoinverse : ${\ Displaystyle {\ hat {\ mathbf {B}}}}$

{\ Displaystyle {\ chapéu {\ mathbf {B}}} = (\ mathbf {X} ^ {\ rm {T}} \ mathbf {X}) ^ {- 1} \ mathbf {X} ^ {\ rm { T}} \ mathbf {Y}}

.

Para obter a solução Bayesiana, precisamos especificar a probabilidade condicional e, em seguida, encontrar o conjugado apropriado antes. Tal como acontece com o caso univariado de regressão Bayesiana linear , vamos descobrir que podemos especificar um conjugado condicional naturais antes (que é dependente de escala).

Vamos escrever nossa probabilidade condicional como

{\ Displaystyle \ rho (\ mathbf {E} | {\ boldsymbol {\ Sigma}} _ {\ epsilon}) \ propto | {\ boldsymbol {\ Sigma}} _ {\ epsilon} | ^ {- n / 2} \ exp (- {\ frac {1} {2}} {\ rm {tr}} (\ mathbf {E} ^ {\ rm {T}} \ mathbf {E} {\ boldsymbol {\ Sigma}} _ { \ epsilon} ^ {- 1})),}

escrever o erro em termos de e rendimentos ${\ Displaystyle \ mathbf {E}}$ ${\ Displaystyle \ mathbf {Y}, \ mathbf {X},}$ ${\ Displaystyle \ mathbf {B}}$

{\ Displaystyle \ rho (\ mathbf {Y} | \ mathbf {X}, \ mathbf {B}, {\ boldsymbol {\ Sigma}} _ {\ epsilon}) \ propto | {\ boldsymbol {\ Sigma}} _ {\ epsilon} | ^ {- n / 2} \ exp (- {\ frac {1} {2}} {\ rm {tr}} ((\ mathbf {Y} - \ mathbf {X} \ mathbf {\ mathbf {B}}) ^ {\ rm {T}} (\ mathbf {Y} - \ mathbf {X} \ mathbf {\ mathbf {B}}) {\ boldsymbol {\ Sigma}} _ {\ epsilon} ^ {-1})),}

Procuramos um conjugado natural, antes-uma densidade conjunta que é da mesma forma funcional como a probabilidade. Desde a probabilidade está em quadrática , nós re-escrever a probabilidade por isso é normal em (o desvio da estimativa amostra clássica). ${\ Displaystyle \ rho (\ mathbf {B}, \ Sigma _ {\ epsilon})}$ ${\ Displaystyle \ mathbf {B}}$ ${\ Displaystyle (\ mathbf {B} - {\ hat {\ mathbf {B}}})}$

Usando a mesma técnica com regressão linear Bayesiana , que decompor o termo exponencial usando uma forma-matriz da técnica de soma de quadrados. Aqui, no entanto, vamos também precisar usar o Matrix Cálculo Diferencial ( produto de Kronecker e vectorização transformações).

Primeiro, vamos aplicar soma de quadrados para obter nova expressão para a probabilidade:

{\ Displaystyle \ rho (\ mathbf {Y} | \ mathbf {X}, \ mathbf {B}, {\ boldsymbol {\ Sigma}} _ {\ epsilon}) \ propto | {\ boldsymbol {\ Sigma}} _ {\ epsilon} | ^ {- (nk) / 2} \ exp (- {\ rm {tr}} ({\ frac {1} {2}} \ mathbf {S} ^ {\ rm {T}} \ mathbf {S} {\ boldsymbol {\ Sigma}} _ {\ epsilon} ^ {- 1})) | {\ boldsymbol {\ Sigma}} _ {\ epsilon} | ^ {- k / 2} \ exp (- {\ frac {1} {2}} {\ rm {tr}} ((\ mathbf {B} - {\ chapéu {\ mathbf {B}}}) ^ {\ rm {T}} \ mathbf {X} ^ {\ rm {T}} \ mathbf {X} (\ mathbf {B} - {\ chapéu {\ mathbf {B}}}) {\ boldsymbol {\ Sigma}} _ {\ epsilon} ^ {- 1} )),}

{\ Displaystyle \ mathbf {S} = \ mathbf {Y} - \ mathbf {X} {\ chapéu {\ mathbf {B}}}}

Gostaríamos de desenvolver uma forma condicional para os priores:

{\ Displaystyle \ rho (\ mathbf {B}, {\ boldsymbol {\ Sigma}} _ {\ epsilon}) = \ rho ({\ boldsymbol {\ Sigma}} _ {\ epsilon}) \ rho (\ mathbf { B} | {\ boldsymbol {\ Sigma}} _ {\ epsilon}),}

onde é uma distribuição inversa-Wishart e é uma forma de distribuição normal na matriz . Isto é conseguido usando a vectorização de transformação, o qual converte a probabilidade de uma função das matrizes para uma função dos vectores . ${\ Displaystyle \ rho ({\ boldsymbol {\ Sigma}} _ {\ epsilon})}$ ${\ Displaystyle \ rho (\ mathbf {B} | {\ boldsymbol {\ Sigma}} _ {\ epsilon})}$ ${\ Displaystyle \ mathbf {B}}$ ${\ Displaystyle \ mathbf {B}, {\ hat {\ mathbf {B}}}}$ ${\ Displaystyle {\ boldsymbol {\ beta}} = {\ rm {vec}} (\ mathbf {B}), {\ chapéu {\ boldsymbol {\ beta}}} = {\ rm {vec}} ({\ hat {\ mathbf {B}}})}$

Escrever

{\ Displaystyle {\ rm {tr}} ((\ mathbf {B} - {\ chapéu {\ mathbf {B}}}) ^ {\ rm {T}} \ mathbf {X} ^ {\ rm {T} } \ mathbf {X} (\ mathbf {B} - {\ chapéu {\ mathbf {B}}}) {\ boldsymbol {\ Sigma}} _ {\ epsilon} ^ {- 1}) = {\ rm {vec }} (\ mathbf {B} - {\ chapéu {\ mathbf {B}}}) ^ {\ rm {T}} {\ rm {vec}} (\ mathbf {X} ^ {\ rm {T}} \ mathbf {X} (\ mathbf {B} - {\ chapéu {\ mathbf {B}}}) {\ boldsymbol {\ Sigma}} _ {\ epsilon} ^ {- 1})}

Deixei

{\ Displaystyle {\ rm {vec}} (\ mathbf {X} ^ {\ rm {T}} \ mathbf {X} (\ mathbf {B} - {\ chapéu {\ mathbf {B}}}) {\ boldsymbol {\ Sigma}} _ {\ epsilon} ^ {- 1}) = ({\ boldsymbol {\ Sigma}} _ {\ epsilon} ^ {- 1} \ otimes \ mathbf {X} ^ {\ rm {t }} \ mathbf {X}) {\ rm {vec}} (\ mathbf {B} - {\ chapéu {\ mathbf {B}}}),}

onde indica o produto de Kronecker de matrizes A e B , uma generalização do produto externo que multiplica uma matriz por uma matriz para gerar uma matriz, que consiste em todas as combinações de produtos de elementos a partir de duas matrizes. ${\ Displaystyle \ mathbf {A} \ otimes \ mathbf {B}}$ ${\ M \ displaystyle vezes n}$ ${\ Displaystyle p \ times q}$ ${\ Displaystyle pf \ vezes nq}$

Então

{\ Displaystyle {\ rm {vec}} (\ mathbf {B} - {\ hat {\ mathbf {B}}}) ^ {\ rm {T}} ({\ boldsymbol {\ Sigma}} _ {\ epsilon } ^ {- 1} \ otimes \ mathbf {X} ^ {\ rm {T}} \ mathbf {X}) {\ rm {vec}} (\ mathbf {B} - {\ chapéu {\ mathbf {B} }})}

{\ Displaystyle = ({\ boldsymbol {\ beta}} - {\ hat {\ boldsymbol {\ beta}}}) ^ {\ rm {T}} ({\ boldsymbol {\ Sigma}} _ {\ epsilon} ^ {-1} \ otimes \ mathbf {X} ^ {\ rm {T}} \ mathbf {X}) ({\ boldsymbol {\ beta}} - {\ chapéu {\ boldsymbol {\ beta}}})}

o que levará a uma probabilidade que é normal em . ${\ Displaystyle ({\ boldsymbol {\ beta}} - {\ hat {\ boldsymbol {\ beta}}})}$

Com a probabilidade de uma forma mais tratável, agora podemos encontrar um (condicional) conjugado naturais antes.

distribuição antes conjugado

O conjugado natural, antes usando a variável vectorizado é da forma: ${\ Displaystyle {\ boldsymbol {\ beta}}}$

{\ Displaystyle \ rho ({\ boldsymbol {\ beta}}, {\ boldsymbol {\ Sigma}} _ {\ epsilon}) = \ rho ({\ boldsymbol {\ Sigma}} _ {\ epsilon}) \ rho ( {\ boldsymbol {\ beta}} | {\ boldsymbol {\ Sigma}} _ {\ epsilon})}

,

Onde

{\ Displaystyle \ rho ({\ boldsymbol {\ Sigma}} _ {\ epsilon}) \ sim {\ mathcal {W}} ^ {- 1} (\ mathbf {V_ {0}}, {\ boldsymbol {\ nu }} _ {0})}

e

{\ Displaystyle \ rho ({\ boldsymbol {\ beta}} | {\ boldsymbol {\ Sigma}} _ {\ epsilon}) \ sim N ({\ boldsymbol {\ beta}} _ {0}, {\ boldsymbol { \ Sigma}} _ {\ epsilon} \ otimes {\ boldsymbol {\ Lambda}} _ {0} ^ {-. 1})}

distribuição a posteriori

Usando o acima probabilidade antes e, a distribuição a posteriori podem ser expressos como:

{\ Displaystyle \ rho ({\ boldsymbol {\ beta}}, {\ boldsymbol {\ Sigma}} _ {\ epsilon} | \ mathbf {Y}, \ mathbf {X}) \ propto | {\ boldsymbol {\ Sigma }} _ {\ epsilon} | ^ {- ({\ boldsymbol {\ nu}} _ {0} + m + 1) / 2} \ exp {(- {\ frac {1} {2}} {\ rm {tr}} (\ mathbf {V_ {0}} {\ boldsymbol {\ Sigma}} _ {\ epsilon} ^ {- 1}))}}

{\ Displaystyle \ times | {\ boldsymbol {\ Sigma}} _ {\ epsilon} | ^ {- k / 2} \ exp {(- {\ frac {1} {2}} {\ rm {tr}} ( (\ mathbf {B} - \ mathbf {B_ {0}}) ^ {\ rm {T}} {\ boldsymbol {\ Lambda}} _ {0} (\ mathbf {B} - \ mathbf {B_ {0} }) {\ boldsymbol {\ Sigma}} _ {\ epsilon} ^ {- 1}))}}

{\ Displaystyle \ times | {\ boldsymbol {\ Sigma}} _ {\ epsilon} | ^ {- n / 2} \ exp {(- {\ frac {1} {2}} {\ rm {tr}} ( (\ mathbf {Y} - \ mathbf {XB}) ^ {\ rm {T}} (\ mathbf {Y} - \ mathbf {XB}) {\ boldsymbol {\ Sigma}} _ {\ epsilon} ^ {- 1}))},}

onde . Os termos que envolvem podem ser agrupados (com ) usando: ${\ Displaystyle {\ rm {vec}} (\ mathbf {B_ {0}}) = {\ boldsymbol {\ beta}} _ {0}}$ ${\ Displaystyle \ mathbf {B}}$ ${\ Displaystyle {\ boldsymbol {\ Lambda}} _ {0} = \ mathbf {U} ^ {\ rm {T}} \ mathbf {U}}$

{\ Displaystyle (\ mathbf {B} - \ mathbf {B_ {0}}) ^ {\ rm {T}} {\ boldsymbol {\ Lambda}} _ {0} (\ mathbf {B} - \ mathbf {B_ {0}}) + (\ mathbf {Y} - \ mathbf {XB}) ^ {\ rm {T}} (\ mathbf {Y} - \ mathbf {XB})}

{\ Displaystyle = \ esquerda ({\ {começar bmatrix} \ mathbf {Y} \\\ mathbf {UB_ {0}} \ final {bmatrix}} - {\ {começar bmatrix} \ mathbf {X} \\\ mathbf {L} \ final {bmatrix}} \ mathbf {B} \ direita) ^ {\ rm {T}} \ esquerda ({\ {começar bmatrix} \ mathbf {Y} \\\ mathbf {UB_ {0}} \ end {bmatrix}} - {\ begin {bmatrix} \ mathbf {X} \\\ mathbf {U} \ end {bmatrix}} \ mathbf {B} \ right)}

{\ Displaystyle = \ esquerda ({\ {começar bmatrix} \ mathbf {Y} \\\ mathbf {UB_ {0}} \ final {bmatrix}} - {\ {começar bmatrix} \ mathbf {X} \\\ mathbf {L} \ final {bmatrix}} \ mathbf {B_ {n}} \ direita) ^ {\ rm {T}} \ esquerda ({\ {começar bmatrix} \ mathbf {Y} \\\ mathbf {{0 UB_ }} \ end {bmatrix}} - {\ begin {bmatrix} \ mathbf {X} \\\ mathbf {U} \ end {bmatrix}} \ mathbf {B_ {n}} \ right) + (\ mathbf {B } - \ mathbf {B_ {n}}) ^ {\ rm {T}} (\ mathbf {X} ^ {\ rm {T}} \ mathbf {X} + {\ boldsymbol {\ Lambda}} _ {0 }) (\ mathbf {B} - \ mathbf {B_ {n}})}

{\ Displaystyle = (\ mathbf {Y} - \ mathbf {XB_ {n}}) ^ {\ rm {T}} (\ mathbf {Y} - \ mathbf {XB_ {n}}) + (\ mathbf {B_ {0}} - \ mathbf {B_ {n}}) ^ {\ rm {T}} {\ boldsymbol {\ Lambda}} _ {0} (\ mathbf {B_ {0}} - \ mathbf {B_ {n }}) + (\ mathbf {B} - \ mathbf {B_ {n}}) ^ {\ rm {T}} (\ mathbf {X} ^ {\ rm {T}} \ mathbf {X} + {\ boldsymbol {\ Lambda}} _ {0}) (\ mathbf {B} - \ mathbf {B_ {n}})}

,

com

{\ Displaystyle \ mathbf {B_ {n}} = (\ mathbf {X} ^ {\ rm {T}} \ mathbf {X} + {\ boldsymbol {\ Lambda}} _ {0}) ^ {- 1} (\ mathbf {X} ^ {\ rm {T}} \ mathbf {X} {\ chapéu {\ mathbf {B}}} + {\ boldsymbol {\ Lambda}} _ {0} \ mathbf {B_ {0} }) = (\ mathbf {X} ^ {\ rm {T}} \ mathbf {X} + {\ boldsymbol {\ Lambda}} _ {0}) ^ {- 1} (\ mathbf {X} ^ {\ rm {T}} \ mathbf {Y} + {\ boldsymbol {\ Lambda}} _ {0} \ mathbf {B_ {0}})}

.

Isto permite-nos agora para escrever o posterior de uma forma mais útil:

{\ Displaystyle \ rho ({\ boldsymbol {\ beta}}, {\ boldsymbol {\ Sigma}} _ {\ epsilon} | \ mathbf {Y}, \ mathbf {X}) \ propto | {\ boldsymbol {\ Sigma }} _ {\ epsilon} | ^ {- ({\ boldsymbol {\ nu}} _ {0} + m + n + 1) / 2} \ exp {(- {\ frac {1} {2}} { \ rm {tr}} ((\ mathbf {V_ {0}} + (\ mathbf {Y} - \ mathbf {XB_ {n}}) ^ {\ rm {T}} (\ mathbf {Y} - \ mathbf {XB_ {n}}) + (\ mathbf {B_ {n}} - \ mathbf {B_ {0}}) ^ {\ rm {T}} {\ boldsymbol {\ Lambda}} _ {0} (\ mathbf {B_ {n}} - \ mathbf {B_ {0}})) {\ boldsymbol {\ Sigma}} _ {\ epsilon} ^ {- 1}))}}

{\ Displaystyle \ times | {\ boldsymbol {\ Sigma}} _ {\ epsilon} | ^ {- k / 2} \ exp {(- {\ frac {1} {2}} {\ rm {tr}} ( (\ mathbf {B} - \ mathbf {B_ {n}}) ^ {\ rm {T}} (\ mathbf {X} ^ {T} \ mathbf {X} + {\ boldsymbol {\ Lambda}} _ { 0}) (\ mathbf {B} - \ mathbf {B_ {n}}) {\ boldsymbol {\ Sigma}} _ {\ epsilon} ^ {- 1}))}}

.

Este assume a forma de um inversas-Wishart distribuição vezes uma distribuição normal de Matrix :

{\ Displaystyle \ rho ({\ boldsymbol {\ Sigma}} _ {\ epsilon} | \ mathbf {Y}, \ mathbf {X}) \ sim {\ mathcal {W}} ^ {- 1} (\ mathbf { V_ {n}}, {\ boldsymbol {\ nu}} _ {n})}

e

{\ Displaystyle \ rho (\ mathbf {B} | \ mathbf {Y}, \ mathbf {X}, {\ boldsymbol {\ Sigma}} _ {\ epsilon}) \ sim {\ mathcal {MN}} _ {k , m} (\ mathbf {B_ {n}}, {\ boldsymbol {\ Lambda}} _ {n} ^ {- 1}, {\ boldsymbol {\ Sigma}} _ {\ epsilon})}

.

Os parâmetros desta posterior são dadas por:

{\ Displaystyle \ mathbf {V_ {n}} = \ mathbf {V_ {0}} + (\ mathbf {Y} - \ mathbf {XB_ {n}}) ^ {\ rm {T}} (\ mathbf {Y } - \ mathbf {XB_ {n}}) + (\ mathbf {B_ {n}} - \ mathbf {B_ {0}}) ^ {\ rm {T}} {\ boldsymbol {\ Lambda}} _ {0 } (\ mathbf {B_ {n}} - \ mathbf {B_ {0}})}

{\ Displaystyle {\ boldsymbol {\ nu}} _ {n} = {\ boldsymbol {\ nu}} _ {0} n +}

{\ Displaystyle \ mathbf {B_ {n}} = (\ mathbf {X} ^ {\ rm {T}} \ mathbf {X} + {\ boldsymbol {\ Lambda}} _ {0}) ^ {- 1} (\ mathbf {X} ^ {\ rm {T}} \ mathbf {Y} + {\ boldsymbol {\ Lambda}} _ {0} \ mathbf {B_ {0}})}

{\ Displaystyle {\ boldsymbol {\ Lambda}} _ {n} = \ mathbf {X} ^ {\ rm {T}} \ mathbf {X} + {\ boldsymbol {\ Lambda}} _ {0}}

Veja também

Referências

Box, GEP ; Tiao, GC (1973). "8". Inferência Bayesiana na análise estatística . Wiley. ISBN 0-471-57428-7 .
Geisser, S. (1965). "Bayesian Estimativa Na análise multivariada". Os Anais de Estatística Matemática . 36 (1): 150 & ndash, 159. JSTOR 2.238.083 .
Tiao, GC; Zellner, A. (1964). "Por Bayesian Estimativa de multivariada de regressão". Journal of Royal Statistical Society. Série B (metodológico) . 26 (2): 277 & ndash, 285. JSTOR 2.984.424 .

Languages

In other projects