Função de distribuição cumulativa - Cumulative distribution function

Função de distribuição cumulativa para a distribuição exponencial
Função de distribuição cumulativa para a distribuição normal

Em teoria de probabilidade e estatística , a função de distribuição cumulativa ( CDF ) de uma variável aleatória de valor real , ou apenas função de distribuição de , avaliada em , é a probabilidade de que terá um valor menor ou igual a .

Cada distribuição de probabilidade apoiada nos números reais, discreta ou "mista", bem como contínua, é identificada exclusivamente por uma função de distribuição cumulativa crescente e monotônica contínua para cima satisfazendo e .

No caso de uma distribuição escalar contínua , dá a área sob a função de densidade de probabilidade de menos infinito a . Funções de distribuição cumulativa também são usadas para especificar a distribuição de variáveis ​​aleatórias multivariadas .

Definição

A função de distribuição cumulativa de uma variável aleatória de valor real é a função dada por

 

 

 

 

( Eq.1 )

onde o lado direito representa a probabilidade de a variável aleatória assumir um valor menor ou igual a . A probabilidade que se encontra no intervalo semifechado , onde , é, portanto,

 

 

 

 

( Eq.2 )

Na definição acima, o sinal "menor ou igual a", "≤", é uma convenção, não universalmente usada (por exemplo, a literatura húngara usa "<"), mas a distinção é importante para distribuições discretas. O uso adequado das tabelas das distribuições binomial e de Poisson depende dessa convenção. Além disso, fórmulas importantes como a fórmula de inversão de Paul Lévy para a função característica também contam com a formulação "menor ou igual".

Se estiver tratando várias variáveis ​​aleatórias, etc., as letras correspondentes são usadas como subscrito, enquanto, se estiver tratando apenas uma, o subscrito é geralmente omitido. É convencional usar maiúscula para uma função de distribuição cumulativa, em contraste com a minúscula usada para funções de densidade de probabilidade e funções de massa de probabilidade . Isso se aplica ao discutir distribuições gerais: algumas distribuições específicas têm sua própria notação convencional, por exemplo, a distribuição normal usa e em vez de e , respectivamente.

A função de densidade de probabilidade de uma variável aleatória contínua pode ser determinada a partir da função de distribuição cumulativa por diferenciação usando o Teorema Fundamental do Cálculo ; isto é , dado ,

contanto que a derivada exista.

O CDF de uma variável aleatória contínua pode ser expresso como a integral de sua função de densidade de probabilidade da seguinte forma:

No caso de uma variável aleatória que tem distribuição tendo um componente discreto em um valor ,

Se for contínuo em , isso é igual a zero e não há componente discreto em .

Propriedades

De cima para baixo, a função de distribuição cumulativa de uma distribuição de probabilidade discreta, distribuição de probabilidade contínua e uma distribuição que tem uma parte contínua e uma parte discreta.

Cada função de distribuição cumulativa é não decrescente e contínua à direita , o que a torna uma função càdlàg . Além disso,

Cada função com essas quatro propriedades é um CDF, ou seja, para cada uma dessas funções, uma variável aleatória pode ser definida de forma que a função seja a função de distribuição cumulativa dessa variável aleatória.

Se for uma variável aleatória puramente discreta , ela atinge valores com probabilidade , e o CDF de será descontínuo nos pontos :

Se o CDF de uma variável aleatória de valor real é contínua , então é uma variável aleatória contínua ; se, além disso, é absolutamente contínuo , então existe uma função integrável de Lebesgue tal que

para todos os números reais e . A função é igual à derivada de quase todos os lugares e é chamada de função de densidade de probabilidade da distribuição de .

Exemplos

Como exemplo, suponha que seja uniformemente distribuído no intervalo da unidade .

Então o CDF de é dado por

Suponha, em vez disso, que tome apenas os valores discretos 0 e 1, com probabilidade igual.

Então o CDF de é dado por

Suponha que seja exponencial distribuído . Então o CDF de é dado por

Aqui, λ> 0 é o parâmetro da distribuição, freqüentemente chamado de parâmetro de taxa.

Suponha que seja uma distribuição normal . Então o CDF de é dado por

Aqui, o parâmetro  é a média ou expectativa da distribuição; e  é o seu desvio padrão.

Suponha que seja binomialmente distribuído . Então o CDF de é dado por

Aqui está a probabilidade de sucesso e a função denota a distribuição de probabilidade discreta do número de sucessos em uma sequência de experimentos independentes, e é o "piso" abaixo , ou seja, o maior inteiro menor ou igual a .

Funções derivadas

Função de distribuição cumulativa complementar (distribuição de cauda)

Às vezes, é útil estudar a pergunta oposta e perguntar com que frequência a variável aleatória está acima de um determinado nível. Isso é chamado de função de distribuição cumulativa complementar ( ccdf ) ou simplesmente a distribuição de cauda ou excedência , e é definida como

Isso tem aplicações em testes de hipóteses estatísticas , por exemplo, porque o valor p unilateral é a probabilidade de observar uma estatística de teste pelo menos tão extrema quanto aquela observada. Assim, desde que a estatística de teste , T , tenha uma distribuição contínua, o valor p unilateral é simplesmente dado pelo ccdf: para um valor observado da estatística de teste

Na análise de sobrevivência , é chamada de função de sobrevivência e denotada , enquanto o termo função de confiabilidade é comum na engenharia .

Mesa Z:

Uma das aplicações mais populares da função de distribuição cumulativa é a tabela normal padrão , também chamada de tabela normal de unidade ou tabela Z , é o valor da função de distribuição cumulativa da distribuição normal. É muito útil usar a tabela Z não apenas para probabilidades abaixo de um valor que é a aplicação original da função de distribuição cumulativa, mas também acima e / ou entre os valores na distribuição normal padrão, e foi posteriormente estendida para qualquer distribuição normal.

Propriedades
  • Para uma variável aleatória contínua não negativa com uma expectativa, a desigualdade de Markov afirma que
  • Como , e de fato desde que seja finito.
Prova: Supondo que tenha uma função de densidade , para qualquer
Então, ao reconhecer e reorganizar os termos,
conforme reivindicado.

Distribuição cumulativa dobrada

Exemplo da distribuição cumulativa dobrada para uma função de distribuição normal com um valor esperado de 0 e um desvio padrão de 1.

Embora o gráfico de uma distribuição cumulativa frequentemente tenha uma forma de S, uma ilustração alternativa é a distribuição cumulativa dobrada ou gráfico de montanha , que dobra a metade superior do gráfico, usando assim duas escalas, uma para a encosta ascendente e outra para o encosta abaixo. Esta forma de ilustração enfatiza a mediana , a dispersão (especificamente, o desvio médio absoluto da mediana) e a assimetria da distribuição ou dos resultados empíricos.

Função de distribuição inversa (função de quantil)

Se o F CDF é estritamente crescente e contínuo, então o número real único é tal que . Nesse caso, isso define a função de distribuição inversa ou função de quantil .

Algumas distribuições não possuem um inverso único (por exemplo, no caso em que para todos , fazendo com que seja constante). Este problema pode ser resolvido definindo, para , a função de distribuição inversa generalizada :

  • Exemplo 1: a mediana é .
  • Exemplo 2: Put . Em seguida, chamamos o percentil 95.

Algumas propriedades úteis do cdf inverso (que também são preservadas na definição da função de distribuição inversa generalizada) são:

  1. não está diminuindo
  2. se e apenas se
  3. Se tiver uma distribuição, será distribuído como . Isso é usado na geração de números aleatórios usando o método de amostragem por transformada inversa .
  4. Se for uma coleção de variáveis ​​aleatórias distribuídas independentes definidas no mesmo espaço amostral, então existem variáveis ​​aleatórias tais que são distribuídas como e com probabilidade 1 para todos .

O inverso do cdf pode ser usado para traduzir os resultados obtidos para a distribuição uniforme para outras distribuições.

Função de distribuição empírica

A função de distribuição empírica é uma estimativa da função de distribuição cumulativa que gerou os pontos na amostra. Ele converge com a probabilidade 1 para essa distribuição subjacente. Existem vários resultados para quantificar a taxa de convergência da função de distribuição empírica para a função de distribuição cumulativa subjacente.

Caso multivariado

Definição para duas variáveis ​​aleatórias

Ao lidar simultaneamente com mais de uma variável aleatória, a função de distribuição cumulativa conjunta também pode ser definida. Por exemplo, para um par de variáveis ​​aleatórias , o CDF conjunto é dado por

 

 

 

 

( Eq.3 )

onde o lado direito representa a probabilidade de que a variável aleatória assuma um valor menor ou igual a e que assuma um valor menor ou igual a .

Exemplo de função de distribuição cumulativa conjunta:

Para duas variáveis contínuas X e Y : ;

Para duas variáveis ​​aleatórias discretas, é benéfico gerar uma tabela de probabilidades e abordar a probabilidade cumulativa para cada intervalo potencial de X e Y , e aqui está o exemplo:

dada a função de massa de probabilidade conjunta na forma tabular, determine a função de distribuição cumulativa conjunta.

Y = 2 Y = 4 Y = 6 Y = 8
X = 1 0 0,1 0 0,1
X = 3 0 0 0,2 0
X = 5 0,3 0 0 0,15
X = 7 0 0 0,15 0

Solução: usando a tabela de probabilidades fornecida para cada intervalo potencial de X e Y , a função de distribuição cumulativa conjunta pode ser construída na forma tabular:

Y <2 2 ≤ Y <4 4 ≤ Y <6 6 ≤ Y <8 Y ≤ 8
X <1 0 0 0 0 0
1 ≤ X <3 0 0 0,1 0,1 0,2
3 ≤ X <5 0 0 0,1 0,3 0,4
5 ≤ X <7 0 0,3 0,4 0,6 0,85
X ≤ 7 0 0,3 0,4 0,75 1

Definição para mais de duas variáveis ​​aleatórias

Para variáveis ​​aleatórias , o CDF conjunto é dado por

 

 

 

 

( Eq.4 )

Interpretar as variáveis ​​aleatórias como um vetor aleatório produz uma notação mais curta:

Propriedades

Todo CDF multivariado é:

  1. Monotonicamente não decrescente para cada uma de suas variáveis,
  2. Contínuo à direita em cada uma de suas variáveis,

A probabilidade de um ponto pertencer a um hiper - retângulo é análoga ao caso unidimensional:

Caso complexo

Variável aleatória complexa

A generalização da função de distribuição cumulativa de variáveis ​​aleatórias reais para complexas não é óbvia porque as expressões da forma não fazem sentido. No entanto, as expressões da forma fazem sentido. Portanto, definimos a distribuição cumulativa de variáveis ​​aleatórias complexas por meio da distribuição conjunta de suas partes reais e imaginárias:

.

Vetor aleatório complexo

Generalização dos rendimentos da Eq.4

como definição para o CDS de um vetor aleatório complexo .

Use em análises estatísticas

O conceito da função de distribuição cumulativa faz uma aparição explícita na análise estatística de duas maneiras (semelhantes). A análise de frequência cumulativa é a análise da frequência de ocorrência de valores de um fenômeno menores que um valor de referência. A função de distribuição empírica é uma estimativa direta formal da função de distribuição cumulativa para a qual propriedades estatísticas simples podem ser derivadas e que podem formar a base de vários testes de hipóteses estatísticas . Esses testes podem avaliar se há evidências contra uma amostra de dados que surgiram de uma determinada distribuição ou se há evidências contra duas amostras de dados que surgiram da mesma distribuição populacional (desconhecida).

Testes de Kolmogorov – Smirnov e Kuiper

O teste de Kolmogorov-Smirnov é baseado em funções de distribuição cumulativa e pode ser usado para testar se duas distribuições empíricas são diferentes ou se uma distribuição empírica é diferente de uma distribuição ideal. O teste de Kuiper intimamente relacionado é útil se o domínio da distribuição for cíclico, como no dia da semana. Por exemplo, o teste de Kuiper pode ser usado para ver se o número de tornados varia durante o ano ou se as vendas de um produto variam por dia da semana ou dia do mês.

Veja também

Referências

links externos