Variáveis ​​aleatórias independentes e distribuídas de forma idêntica - Independent and identically distributed random variables

Em teoria de probabilidade e estatística , uma coleção de variáveis ​​aleatórias é independente e distribuída de forma idêntica se cada variável aleatória tiver a mesma distribuição de probabilidade que as outras e todas forem mutuamente independentes . Esta propriedade é geralmente abreviado como iid ou iid ou IID . Aqui, iid é usado, porque é o mais prevalente.

Introdução

Em estatística , é comumente assumido que as observações em uma amostra são efetivamente iid. A suposição (ou requisito) de que as observações sejam iid tende a simplificar a matemática subjacente de muitos métodos estatísticos (ver estatística matemática e teoria estatística ). Em aplicações práticas de modelagem estatística , entretanto, a suposição pode ou não ser realista. Para testar parcialmente o quão realista é a suposição em um determinado conjunto de dados, a correlação pode ser calculada, gráficos de atraso desenhados ou teste de ponto de viragem realizado. A generalização de variáveis ​​aleatórias intercambiáveis é freqüentemente suficiente e mais facilmente satisfeita.

A suposição de iid é importante na forma clássica do teorema do limite central , que afirma que a distribuição de probabilidade da soma (ou média) de variáveis ​​iid com variância finita se aproxima de uma distribuição normal .

Freqüentemente, a suposição iid surge no contexto de sequências de variáveis ​​aleatórias. Então, "independente e distribuído de forma idêntica" implica que um elemento na sequência é independente das variáveis ​​aleatórias que vieram antes dele. Deste modo, uma sequência de IID é diferente de uma sequência de Markov , onde a distribuição de probabilidade para o n th variável aleatória é uma função da variável aleatória anterior na sequência (para uma primeira ordem de sequência de Markov). Uma sequência iid não implica que as probabilidades de todos os elementos do espaço amostral ou espaço de eventos sejam iguais. Por exemplo, lançamentos repetidos de dados carregados produzirão uma sequência iid, apesar dos resultados serem tendenciosos.

Definição

Definição para duas variáveis ​​aleatórias

Suponha que as variáveis ​​aleatórias e sejam definidas para assumir valores em . Sejam e as funções de distribuição cumulativa de e , respectivamente, e denotem sua função de distribuição cumulativa conjunta por .

Duas variáveis ​​aleatórias e são distribuídas de forma idêntica se e somente se .

Duas variáveis ​​aleatórias e são independentes se e somente se . (Veja mais Independência (teoria da probabilidade) § Duas variáveis ​​aleatórias .)

Duas variáveis ​​aleatórias e são iid se forem independentes e distribuídas de forma idêntica, ou seja, se e somente se

 

 

 

 

( Eq.1 )

Definição para mais de duas variáveis ​​aleatórias

A definição se estende naturalmente a mais de duas variáveis ​​aleatórias. Dizemos que as variáveis ​​aleatórias são iid se forem independentes (ver mais Independência (teoria da probabilidade) # Mais de duas variáveis ​​aleatórias ) e distribuídas de forma idêntica, ou seja, se e somente se

 

 

 

 

( Eq.2 )

onde denota a função de distribuição cumulativa conjunta de .

Exemplos

A seguir estão exemplos ou aplicações de variáveis ​​aleatórias iid:

  • Uma sequência de resultados de giros de uma roda de roleta justa ou injusta é iid. Uma implicação disso é que se a bola da roleta cair no "vermelho", por exemplo, 20 vezes seguidas, o próximo giro não tem mais ou menos probabilidade de ser "preto" do que em qualquer outro giro (veja a falácia do Jogador ).
  • Uma sequência de lançamentos de dados justos ou carregados é iid
  • Uma sequência de cara ou coroa justa ou injusta é iid
  • No processamento de sinal e processamento de imagem, a noção de transformação para iid implica duas especificações, a parte "id" (id = distribuída de forma idêntica) e a parte "i". (i. = independente) parte:
    • (id) o nível do sinal deve ser equilibrado no eixo do tempo;
    • (i.) o espectro do sinal deve ser achatado, ou seja, transformado por filtragem (como a deconvolução ) em um sinal de ruído branco (ou seja, um sinal onde todas as frequências estão igualmente presentes).

A seguir estão exemplos de amostragem de dados que não satisfazem a suposição iid:

  • Um conjunto de dados médicos em que várias amostras são coletadas de vários pacientes, é muito provável que as amostras dos mesmos pacientes possam ser correlacionadas.
  • Amostras retiradas de processos dependentes do tempo, por exemplo, dados do censo anual.

Generalizações

Muitos resultados que foram inicialmente provados sob a suposição de que as variáveis ​​aleatórias são iid mostraram-se verdadeiros mesmo sob uma suposição de distribuição mais fraca.

Variáveis ​​aleatórias trocáveis

A noção mais geral que compartilha as propriedades principais das variáveis ​​iid são variáveis ​​aleatórias trocáveis , introduzidas por Bruno de Finetti . A permutabilidade significa que, embora as variáveis ​​possam não ser independentes, as futuras se comportam como as passadas - formalmente, qualquer valor de uma sequência finita é tão provável quanto qualquer permutação desses valores - a distribuição de probabilidade conjunta é invariante no grupo simétrico .

Isso fornece uma generalização útil - por exemplo, a amostragem sem substituição não é independente, mas pode ser trocada.

Processo Lévy

No cálculo estocástico , as variáveis ​​iid são pensadas como um processo de Lévy de tempo discreto : cada variável dá o quanto uma muda de um tempo para outro. Por exemplo, uma sequência de tentativas de Bernoulli é interpretada como o processo de Bernoulli . Pode-se generalizar isso para incluir processos de Lévy de tempo contínuo, e muitos processos de Lévy podem ser vistos como limites de variáveis ​​iid - por exemplo, o processo de Wiener é o limite do processo de Bernoulli.

Em Aprendizado de Máquina

Na teoria do aprendizado de máquina, a suposição de iid é frequentemente feita para conjuntos de dados de treinamento para implicar que todas as amostras derivam do mesmo processo generativo e que o processo generativo é assumido como não tendo memória de amostras geradas no passado.

Veja também

Referências

Citações

Origens