Gráfico causal - Causal graph

Em estatística, econometria, epidemiologia, genética e disciplinas relacionadas, gráficos causais (também conhecidos como diagramas de caminhos , redes Bayesianas causais ou DAGs ) são modelos gráficos probabilísticos usados ​​para codificar suposições sobre o processo de geração de dados.

Os gráficos causais podem ser usados ​​para comunicação e inferência. Como dispositivos de comunicação, os gráficos fornecem uma representação formal e transparente das suposições causais que os pesquisadores podem desejar transmitir e defender. Como ferramentas de inferência, os gráficos permitem aos pesquisadores estimar tamanhos de efeito de dados não experimentais, derivar implicações testáveis das suposições codificadas, testar a validade externa e gerenciar dados ausentes e viés de seleção.

Os gráficos causais foram usados ​​pela primeira vez pelo geneticista Sewall Wright sob a rubrica "diagramas de caminhos". Posteriormente, foram adotados por cientistas sociais e, em menor medida, por economistas. Esses modelos foram inicialmente confinados a equações lineares com parâmetros fixos. Desenvolvimentos modernos ampliaram os modelos gráficos para análises não paramétricas e, assim, alcançaram uma generalidade e flexibilidade que transformaram a análise causal em ciência da computação, epidemiologia e ciências sociais.

Construção e terminologia

O gráfico causal pode ser desenhado da seguinte maneira. Cada variável no modelo tem um vértice ou nó correspondente e uma seta é desenhada de uma variável X para uma variável Y sempre que Y é julgado para responder às mudanças em X quando todas as outras variáveis ​​estão sendo mantidas constantes. Variáveis ​​conectadas a Y por meio de setas diretas são chamadas de pais de Y ou "causas diretas de Y " e são denotadas por Pa (Y) .

Os modelos causais frequentemente incluem "termos de erro" ou "fatores omitidos" que representam todos os fatores não medidos que influenciam uma variável Y quando Pa (Y) é mantida constante. Na maioria dos casos, os termos de erro são excluídos do gráfico. No entanto, se o autor do gráfico suspeita que os termos de erro de quaisquer duas variáveis ​​são dependentes (por exemplo, as duas variáveis ​​têm uma causa comum não observada ou latente), então um arco bidirecional é desenhado entre elas. Assim, a presença de variáveis ​​latentes é levada em conta através das correlações que induzem entre os termos de erro, representados por arcos bidirecionados.

Ferramentas fundamentais

Uma ferramenta fundamental na análise gráfica é a d-separação , que permite aos pesquisadores determinar, por inspeção, se a estrutura causal implica que dois conjuntos de variáveis ​​são independentes dado um terceiro conjunto. Em modelos recursivos sem termos de erro correlacionados (às vezes chamados de Markovianos ), essas independências condicionais representam todas as implicações testáveis ​​do modelo.

Exemplo

Suponha que desejamos estimar o efeito de frequentar uma faculdade de elite sobre os ganhos futuros. A simples regressão dos ganhos com base na classificação da faculdade não fornecerá uma estimativa imparcial do efeito-alvo porque as faculdades de elite são altamente seletivas e os alunos que as frequentam provavelmente terão qualificações para empregos bem remunerados antes de ingressar na escola. Assumindo que as relações causais são lineares, esse conhecimento de fundo pode ser expresso na seguinte especificação do modelo de equação estrutural (SEM).

Modelo 1

onde representa as qualificações do indivíduo antes da faculdade, representa as qualificações após a faculdade, contém atributos que representam a qualidade da faculdade frequentada e o salário do indivíduo.

Figura 1: Modelo não identificado com variáveis ​​latentes ( e ) mostrado explicitamente
Figura 2: Modelo não identificado com variáveis ​​latentes resumidas

A Figura 1 é um gráfico causal que representa a especificação desse modelo. Cada variável no modelo possui um nó ou vértice correspondente no gráfico. Além disso, para cada equação, as setas são desenhadas das variáveis ​​independentes para as variáveis ​​dependentes. Essas setas refletem a direção da causa. Em alguns casos, podemos rotular a seta com seu coeficiente estrutural correspondente, como na Figura 1.

Se e são variáveis ​​não observadas ou latentes, sua influência e pode ser atribuída aos seus termos de erro. Ao removê-los, obtemos a seguinte especificação do modelo:

Modelo 2

A informação de fundo especificado pelo modelo 1 implica que o termo de erro de , , está correlacionada com 'C termo de erro s, . Como resultado, adicionamos um arco bidirecional entre S e C , como na Figura 2.

Figura 3: modelo identificado com variáveis ​​latentes ( e ) mostrado explicitamente
Figura 4: modelo identificado com variáveis ​​latentes resumidas

Uma vez que está correlacionada com a e, por conseguinte, , é endógeno e não é identificado no Modelo 2. No entanto, se incluem a força de aplicação da faculdade de um indivíduo, , como mostrado na Figura 3, obtém-se o seguinte modelo:

Modelo 3

Ao remover as variáveis ​​latentes da especificação do modelo, obtemos:

Modelo 4

com correlacionado com .

Agora, é identificado e pode ser estimado usando a regressão de on e . Isso pode ser verificado pelo critério de porta única , condição gráfica necessária e suficiente para a identificação de coeficientes estruturais, como , por exemplo, por regressão.

Referências