Distribuição de probabilidade conjunta - Joint probability distribution

{\ displaystyle X}

{\ displaystyle Y}

{\ displaystyle p (X)}

{\ displaystyle p (Y)}

Muitas observações de amostra (preto) são mostradas a partir de uma distribuição de probabilidade conjunta. As densidades marginais também são mostradas.

Dadas variáveis aleatórias , que são definidas em um espaço de probabilidade , a distribuição de probabilidade conjunta para é uma distribuição de probabilidade que dá a probabilidade de que cada um caia em qualquer intervalo particular ou conjunto discreto de valores especificados para essa variável. No caso de apenas duas variáveis aleatórias, isso é chamado de distribuição bivariada , mas o conceito generaliza para qualquer número de variáveis aleatórias, dando uma distribuição multivariada . ${\ displaystyle X, Y, \ ldots}$ ${\ displaystyle X, Y, \ ldots}$ ${\ displaystyle X, Y, \ ldots}$

A distribuição de probabilidade conjunta pode ser expressa em termos de uma função de distribuição cumulativa conjunta e em termos de uma função de densidade de probabilidade conjunta (no caso de variáveis contínuas ) ou função de massa de probabilidade conjunta (no caso de variáveis discretas ). Estes, por sua vez, podem ser usados para encontrar dois outros tipos de distribuições: a distribuição marginal dando as probabilidades para qualquer uma das variáveis sem referência a quaisquer intervalos específicos de valores para as outras variáveis, e a distribuição de probabilidade condicional dando as probabilidades para qualquer subconjunto das variáveis condicionais a valores particulares das variáveis restantes.

Exemplos

Retira de uma urna

Suponha que cada uma das duas urnas contenha duas vezes mais bolas vermelhas do que bolas azuis, e nenhuma outra, e suponha que uma bola seja selecionada aleatoriamente de cada urna, com os dois sorteios independentes um do outro. Sejam e sejam variáveis aleatórias discretas associadas aos resultados do sorteio da primeira e da segunda urna, respectivamente. A probabilidade de tirar uma bola vermelha de qualquer uma das urnas é de 2/3, e a probabilidade de tirar uma bola azul é de 1/3. A distribuição de probabilidade conjunta é apresentada na seguinte tabela: ${\ displaystyle A}$ ${\ displaystyle B}$

	A = Vermelho	A = Azul	P (B)
B = vermelho	(2/3) (2/3) = 4/9	(1/3) (2/3) = 2/9	4/9 + 2/9 = 2/3
B = Azul	(2/3) (1/3) = 2/9	(1/3) (1/3) = 1/9	2/9 + 1/9 = 1/3
P (A)	4/9 + 2/9 = 2/3	2/9 + 1/9 = 1/3

Cada uma das quatro células internas mostra a probabilidade de uma combinação particular de resultados dos dois sorteios; essas probabilidades são a distribuição conjunta. Em qualquer célula, a probabilidade de ocorrência de uma combinação específica é (uma vez que os sorteios são independentes) o produto da probabilidade do resultado especificado para A e a probabilidade do resultado especificado para B. As probabilidades nessas quatro células somam 1, como sempre é verdadeiro para distribuições de probabilidade.

Além disso, a linha final e a coluna final fornecem a distribuição de probabilidade marginal para A e a distribuição de probabilidade marginal para B, respectivamente. Por exemplo, para A, a primeira dessas células fornece a soma das probabilidades de A ser vermelho, independentemente de qual possibilidade para B na coluna acima da célula ocorrer, como 2/3. Assim, a distribuição de probabilidade para marginal dá 's probabilidades incondicional em , numa margem da mesa. ${\ displaystyle A}$ ${\ displaystyle A}$ ${\ displaystyle B}$

Moedas viradas

Considere o lançamento de duas moedas justas ; sejam e sejam variáveis aleatórias discretas associadas aos resultados do primeiro e do segundo lançamento de moeda, respectivamente. Cada cara ou coroa é um teste de Bernoulli e tem uma distribuição de Bernoulli . Se uma moeda exibe "cara", a variável aleatória associada assume o valor 1 e, caso contrário, assume o valor 0. A probabilidade de cada um desses resultados é 1/2, então as funções de densidade marginal (incondicional) são ${\ displaystyle A}$ ${\ displaystyle B}$

{\ displaystyle P (A) = 1/2 \ quad {\ text {para}} \ quad A \ in \ {0,1 \};}

{\ displaystyle P (B) = 1/2 \ quad {\ text {para}} \ quad B \ in \ {0,1 \}.}

A função de massa de probabilidade conjunta de e define as probabilidades para cada par de resultados. Todos os resultados possíveis são ${\ displaystyle A}$ ${\ displaystyle B}$

{\ displaystyle (A = 0, B = 0), (A = 0, B = 1), (A = 1, B = 0), (A = 1, B = 1).}

Uma vez que cada resultado é igualmente provável, a função de massa de probabilidade conjunta torna-se

{\ displaystyle P (A, B) = 1/4 \ quad {\ text {para}} \ quad A, B \ in \ {0,1 \}.}

Uma vez que os lançamentos da moeda são independentes, a função de massa de probabilidade conjunta é o produto dos marginais:

{\ displaystyle P (A, B) = P (A) P (B) \ quad {\ text {para}} \ quad A, B \ in \ {0,1 \}.}

Jogando um dado

Considere o lançamento de um dado justo e deixe se o número for par (ou seja, 2, 4 ou 6) e caso contrário. Além disso, deixe se o número for primo (ou seja, 2, 3 ou 5) e de outra forma. ${\ displaystyle A = 1}$ ${\ displaystyle A = 0}$ ${\ displaystyle B = 1}$ ${\ displaystyle B = 0}$

	1	2	3	4	5	6
UMA	0	1	0	1	0	1
B	0	1	1	0	1	0

Então, a distribuição conjunta de e , expressa como uma função de massa de probabilidade, é ${\ displaystyle A}$ ${\ displaystyle B}$

{\ displaystyle \ mathrm {P} (A = 0, B = 0) = P \ {1 \} = {\ frac {1} {6}}, \ quad \ quad \ mathrm {P} (A = 1, B = 0) = P \ {4,6 \} = {\ frac {2} {6}},}

{\ displaystyle \ mathrm {P} (A = 0, B = 1) = P \ {3,5 \} = {\ frac {2} {6}}, \ quad \ quad \ mathrm {P} (A = 1, B = 1) = P \ {2 \} = {\ frac {1} {6}}.}

Estas probabilidades necessariamente resumir a 1, uma vez que a probabilidade de alguma combinação de e ocorrendo é um. ${\ displaystyle A}$ ${\ displaystyle B}$

Exemplo da vida real

Considere uma unidade de produção que enche garrafas plásticas com sabão em pó. O peso de cada garrafa (Y) e o volume de sabão em pó que contém (X) são medidos.

Distribuição de probabilidade marginal

Se mais de uma variável aleatória for definida em um experimento aleatório, é importante distinguir entre a distribuição de probabilidade conjunta de X e Y e a distribuição de probabilidade de cada variável individualmente. A distribuição de probabilidade individual de uma variável aleatória é chamada de distribuição de probabilidade marginal. Em geral, a distribuição de probabilidade marginal de X pode ser determinada a partir da distribuição de probabilidade conjunta de X e outras variáveis aleatórias.

Se a função de densidade de probabilidade conjunta das variáveis aleatórias X e Y for , a função de densidade de probabilidade marginal de X e Y, que define a distribuição Marginal , é dada por: ${\ displaystyle f_ {X, Y} (x, y)}$

${\ displaystyle f_ {X} (x) = \ int f_ {X, Y} (x, y) \; dy}$ , ${\ displaystyle f_ {Y} (y) = \ int f_ {X, Y} (x, y) \; dx}$

onde a primeira integral está sobre todos os pontos no intervalo de (X, Y) para os quais X = xe a segunda integral está sobre todos os pontos no intervalo de (X, Y) para os quais Y = y.

Função de distribuição cumulativa conjunta

Para um par de variáveis aleatórias , a função de distribuição cumulativa conjunta (CDF) é dada por ${\ displaystyle X, Y}$ ${\ displaystyle F_ {XY}}$

{\ displaystyle F_ {X, Y} (x, y) = \ operatorname {P} (X \ leq x, Y \ leq y)}

( Eq.1 )

onde o lado direito representa a probabilidade de que a variável aleatória assuma um valor menor ou igual a e que assuma um valor menor ou igual a . ${\ displaystyle X}$ ${\ displaystyle x}$ ${\ displaystyle Y}$ ${\ displaystyle y}$

Para variáveis aleatórias , o CDF conjunto é dado por ${\ displaystyle N}$ ${\ displaystyle X_ {1}, \ ldots, X_ {N}}$ ${\ displaystyle F_ {X_ {1}, \ ldots, X_ {N}}}$

{\ displaystyle F_ {X_ {1}, \ ldots, X_ {N}} (x_ {1}, \ ldots, x_ {N}) = \ operatorname {P} (X_ {1} \ leq x_ {1}, \ ldots, X_ {N} \ leq x_ {N})}

( Eq.2 )

Interpretar as variáveis aleatórias como um vetor aleatório produz uma notação mais curta: ${\ displaystyle N}$ ${\ displaystyle \ mathbf {X} = (X_ {1}, \ ldots, X_ {N}) ^ {T}}$

{\ displaystyle F _ {\ mathbf {X}} (\ mathbf {x}) = \ operatorname {P} (X_ {1} \ leq x_ {1}, \ ldots, X_ {N} \ leq x_ {N}) }

Função de densidade da junta ou função de massa

Caso discreto

A função de massa de probabilidade conjunta de duas variáveis aleatórias discretas é: ${\ displaystyle X, Y}$

{\ displaystyle p_ {X, Y} (x, y) = \ mathrm {P} (X = x \ \ mathrm {e} \ Y = y)}

( Eq.3 )

ou escrito em termos de distribuições condicionais

{\ displaystyle p_ {X, Y} (x, y) = \ mathrm {P} (Y = y \ mid X = x) \ cdot \ mathrm {P} (X = x) = \ mathrm {P} (X = x \ mid Y = y) \ cdot \ mathrm {P} (Y = y)}

onde está a probabilidade de isso acontecer . ${\ displaystyle \ mathrm {P} (Y = y \ mid X = x)}$ ${\ displaystyle Y = y}$ ${\ displaystyle X = x}$

A generalização do caso anterior de duas variáveis é a distribuição de probabilidade conjunta de variáveis aleatórias discretas que é: ${\ displaystyle n \,}$ ${\ displaystyle X_ {1}, X_ {2}, \ dots, X_ {n}}$

{\ displaystyle p_ {X_ {1}, \ ldots, X_ {n}} (x_ {1}, \ ldots, x_ {n}) = \ mathrm {P} (X_ {1} = x_ {1} {\ texto {e}} \ pontos {\ texto {e}} X_ {n} = x_ {n})}

( Eq.4 )

ou equivalente

{\ displaystyle {\ begin {alinhados} p_ {X_ {1}, \ ldots, X_ {n}} (x_ {1}, \ ldots, x_ {n}) & = \ mathrm {P} (X_ {1} = x_ {1}) \ cdot \ mathrm {P} (X_ {2} = x_ {2} \ mid X_ {1} = x_ {1}) \\ & \ cdot \ mathrm {P} (X_ {3} = x_ {3} \ mid X_ {1} = x_ {1}, X_ {2} = x_ {2}) \\ & \ dots \\ & \ cdot P (X_ {n} = x_ {n} \ mid X_ {1} = x_ {1}, X_ {2} = x_ {2}, \ pontos, X_ {n-1} = x_ {n-1}). \ End {alinhado}}}

.

Essa identidade é conhecida como regra da cadeia de probabilidade .

Uma vez que essas são probabilidades, no caso de duas variáveis

{\ displaystyle \ sum _ {i} \ sum _ {j} \ mathrm {P} (X = x_ {i} \ \ mathrm {e} \ Y = y_ {j}) = 1, \,}

que generaliza para variáveis aleatórias discretas para ${\ displaystyle n \,}$ ${\ displaystyle X_ {1}, X_ {2}, \ dots, X_ {n}}$

{\ displaystyle \ sum _ {i} \ sum _ {j} \ dots \ sum _ {k} \ mathrm {P} (X_ {1} = x_ {1i}, X_ {2} = x_ {2j}, \ pontos, X_ {n} = x_ {nk}) = 1. \;}

Caso contínuo

A função de densidade de probabilidade conjunta para duas variáveis aleatórias contínuas é definida como a derivada da função de distribuição cumulativa conjunta (ver Eq.1 ): ${\ displaystyle f_ {X, Y} (x, y)}$

{\ displaystyle f_ {X, Y} (x, y) = {\ frac {\ parcial ^ {2} F_ {X, Y} (x, y)} {\ parcial x \ parcial y}}}

( Eq.5 )

Isso é igual a:

{\ displaystyle f_ {X, Y} (x, y) = f_ {Y \ mid X} (y \ mid x) f_ {X} (x) = f_ {X \ mid Y} (x \ mid y) f_ {Y} (y)}

onde e são as distribuições condicionais de dado e de dado respectivamente, e e são as distribuições marginais de e respectivamente. ${\ displaystyle f_ {Y \ mid X} (y \ mid x)}$ ${\ displaystyle f_ {X \ mid Y} (x \ mid y)}$ ${\ displaystyle Y}$ ${\ displaystyle X = x}$ ${\ displaystyle X}$ ${\ displaystyle Y = y}$ ${\ displaystyle f_ {X} (x)}$ ${\ displaystyle f_ {Y} (y)}$ ${\ displaystyle X}$ ${\ displaystyle Y}$

A definição se estende naturalmente a mais de duas variáveis aleatórias:

{\ displaystyle f_ {X_ {1}, \ ldots, X_ {n}} (x_ {1}, \ ldots, x_ {n}) = {\ frac {\ partial ^ {n} F_ {X_ {1}, \ ldots, X_ {n}} (x_ {1}, \ ldots, x_ {n})} {\ parcial x_ {1} \ ldots \ parcial x_ {n}}}}

( Eq.6 )

Novamente, uma vez que essas são distribuições de probabilidade, tem-se

{\ displaystyle \ int _ {x} \ int _ {y} f_ {X, Y} (x, y) \; dy \; dx = 1}

respectivamente

{\ displaystyle \ int _ {x_ {1}} \ ldots \ int _ {x_ {n}} f_ {X_ {1}, \ ldots, X_ {n}} (x_ {1}, \ ldots, x_ {n }) \; dx_ {n} \ ldots \; dx_ {1} = 1}

Caso misto

A "densidade conjunta mista" pode ser definida onde uma ou mais variáveis aleatórias são contínuas e as outras variáveis aleatórias são discretas. Com uma variável de cada tipo

{\ displaystyle {\ begin {alinhados} f_ {X, Y} (x, y) = f_ {X \ mid Y} (x \ mid y) \ mathrm {P} (Y = y) = \ mathrm {P} (Y = y \ mid X = x) f_ {X} (x). \ End {alinhado}}}

Um exemplo de situação em que se pode desejar encontrar a distribuição cumulativa de uma variável aleatória que é contínua e outra variável aleatória que é discreta surge quando se deseja usar uma regressão logística para prever a probabilidade de um resultado binário Y condicional ao valor de um resultado continuamente distribuído . Um deve usar a densidade conjunta "mista" quando encontrar a distribuição cumulativa desse resultado binário porque as variáveis de entrada foram inicialmente definidos de forma tal que não se podia coletivamente atribuí-la ou uma função densidade de probabilidade ou uma função de massa de probabilidade. Formalmente, é a função densidade de probabilidade de em relação à medida do produto nos respectivos suportes de e . Qualquer uma dessas duas decomposições pode então ser usada para recuperar a função de distribuição cumulativa conjunta: ${\ displaystyle X}$ ${\ displaystyle (X, Y)}$ ${\ displaystyle f_ {X, Y} (x, y)}$ ${\ displaystyle (X, Y)}$ ${\ displaystyle X}$ ${\ displaystyle Y}$

{\ displaystyle {\ begin {alinhados} F_ {X, Y} (x, y) & = \ sum \ limits _ {t \ leq y} \ int _ {s = - \ infty} ^ {x} f_ {X , Y} (s, t) \; ds. \ End {alinhado}}}

A definição generaliza para uma mistura de números arbitrários de variáveis aleatórias discretas e contínuas.

Propriedades Adicionais

Distribuição conjunta para variáveis independentes

Em geral, duas variáveis aleatórias e são independentes se e somente se a função de distribuição cumulativa conjunta satisfaz ${\ displaystyle X}$ ${\ displaystyle Y}$

{\ displaystyle F_ {X, Y} (x, y) = F_ {X} (x) \ cdot F_ {Y} (y)}

Duas variáveis aleatórias discretas e são independentes se e somente se a função de massa de probabilidade conjunta satisfaz ${\ displaystyle X}$ ${\ displaystyle Y}$

{\ displaystyle P (X = x \ {\ mbox {e}} \ Y = y) = P (X = x) \ cdot P (Y = y)}

para todos e . ${\ displaystyle x}$ ${\ displaystyle y}$

Enquanto o número de eventos aleatórios independentes aumenta, o valor de probabilidade conjunta relacionado diminui rapidamente para zero, de acordo com uma lei exponencial negativa.

Da mesma forma, duas variáveis aleatórias absolutamente contínuas são independentes se e somente se

{\ displaystyle f_ {X, Y} (x, y) = f_ {X} (x) \ cdot f_ {Y} (y)}

para todos e . Isso significa que a aquisição de qualquer informação sobre o valor de uma ou mais das variáveis aleatórias leva a uma distribuição condicional de qualquer outra variável que seja idêntica à sua distribuição incondicional (marginal); portanto, nenhuma variável fornece qualquer informação sobre qualquer outra variável. ${\ displaystyle x}$ ${\ displaystyle y}$

Distribuição conjunta para variáveis condicionalmente dependentes

Se um subconjunto das variáveis é condicionalmente dependente dado outro subconjunto dessas variáveis, então a função de massa de probabilidade da distribuição conjunta é . é igual a . Portanto, pode ser eficientemente representado pelas distribuições de probabilidade de dimensão inferior e . Essas relações de independência condicional podem ser representadas com uma rede bayesiana ou funções de cópula . ${\ displaystyle A}$ ${\ displaystyle X_ {1}, \ cdots, X_ {n}}$ ${\ displaystyle B}$ ${\ displaystyle \ mathrm {P} (X_ {1}, \ ldots, X_ {n})}$ ${\ displaystyle \ mathrm {P} (X_ {1}, \ ldots, X_ {n})}$ ${\ displaystyle P (B) \ cdot P (A \ mid B)}$ ${\ displaystyle P (B)}$ ${\ displaystyle P (A \ mid B)}$

Covariância

Quando duas ou mais variáveis aleatórias são definidas em um espaço de probabilidade, é útil descrever como elas variam juntas; ou seja, é útil medir a relação entre as variáveis. Uma medida comum da relação entre duas variáveis aleatórias é a covariância. Covariância é uma medida de relacionamento linear entre as variáveis aleatórias. Se a relação entre as variáveis aleatórias for não linear, a covariância pode não ser sensível à relação, ou seja, não relaciona a correlação entre duas variáveis.

A covariância entre a variável aleatória X e Y, denotada como cov (X, Y), é:

${\ displaystyle \ sigma _ {XY} = E [(X- \ mu _ {x}) (Y- \ mu _ {y})] = E (XY) - \ mu _ {x} \ mu _ {y }}$

Correlação

Existe outra medida da relação entre duas variáveis aleatórias que geralmente é mais fácil de interpretar do que a covariância.

A correlação apenas dimensiona a covariância pelo produto do desvio padrão de cada variável. Consequentemente, a correlação é uma quantidade adimensional que pode ser usada para comparar as relações lineares entre pares de variáveis em unidades diferentes. Se os pontos na distribuição de probabilidade conjunta de X e Y que recebem probabilidade positiva tendem a cair ao longo de uma linha de inclinação positiva (ou negativa), ρ _XY está próximo de +1 (ou -1). Se ρ _{XY for} igual a +1 ou −1, pode-se mostrar que os pontos na distribuição de probabilidade conjunta que recebem probabilidade positiva caem exatamente ao longo de uma linha reta. Duas variáveis aleatórias com correlação diferente de zero são consideradas correlacionadas. Semelhante à covariância, a correlação é uma medida da relação linear entre variáveis aleatórias.

A correlação entre a variável aleatória X e Y, denotada como

${\ displaystyle \ rho _ {XY} = {\ frac {cov (X, Y)} {\ sqrt {V (X) V (Y)}}} = {\ frac {\ sigma _ {XY}} {\ sigma _ {X} \ sigma _ {Y}}}}$

Distribuições nomeadas importantes

As distribuições conjuntas nomeadas que surgem frequentemente nas estatísticas incluem a distribuição normal multivariada , a distribuição estável multivariada , a distribuição multinomial , a distribuição multinomial negativa , a distribuição hipergeométrica multivariada e a distribuição elíptica .

Veja também

Referências

links externos

"Distribuição conjunta" , Encyclopedia of Mathematics , EMS Press , 2001 [1994]
"Distribuição multidimensional" , Encyclopedia of Mathematics , EMS Press , 2001 [1994]
Uma introdução moderna à probabilidade e estatística: entender por que e como . Dekking, Michel, 1946-. Londres: Springer. 2005. ISBN 978-1-85233-896-1 . OCLC 262680588.
"Função de densidade contínua conjunta" . PlanetMath .
Mathworld: Função de Distribuição Conjunta

Languages

In other projects

Distribuição de probabilidade conjunta - Joint probability distribution

Conteúdo