Análise de sobrevivência - Survival analysis

A análise de sobrevivência é um ramo da estatística para analisar a duração esperada de tempo até que um evento ocorra, como morte em organismos biológicos e falha em sistemas mecânicos. Este tópico é chamado de teoria da confiabilidade ou análise de confiabilidade em engenharia , análise de duração ou modelagem de duração em economia e análise de história de eventos em sociologia . A análise de sobrevivência tenta responder a certas questões, como qual é a proporção de uma população que sobreviverá depois de um certo tempo? Daqueles que sobrevivem, a que taxa eles morrerão ou fracassarão? As causas múltiplas de morte ou falha podem ser levadas em consideração? Como circunstâncias ou características particulares aumentam ou diminuem a probabilidade de sobrevivência ?

Para responder a essas perguntas, é necessário definir "tempo de vida". No caso da sobrevivência biológica, a morte é inequívoca, mas para a confiabilidade mecânica, a falha pode não ser bem definida, pois pode haver sistemas mecânicos em que a falha é parcial, uma questão de grau ou de outra forma não localizada no tempo . Mesmo em problemas biológicos, alguns eventos (por exemplo, ataque cardíaco ou outra falência de órgãos) podem ter a mesma ambigüidade. A teoria delineada abaixo assume eventos bem definidos em momentos específicos; outros casos podem ser melhor tratados por modelos que explicitamente explicam eventos ambíguos.

De maneira mais geral, a análise de sobrevivência envolve a modelagem de dados de tempo até o evento; neste contexto, morte ou falha é considerada um "evento" na literatura de análise de sobrevivência - tradicionalmente, apenas um único evento ocorre para cada sujeito, após o qual o organismo ou mecanismo é morto ou quebrado. Modelos de eventos recorrentes ou repetidos relaxam essa suposição. O estudo de eventos recorrentes é relevante na confiabilidade dos sistemas e em muitas áreas das ciências sociais e da pesquisa médica.

Introdução à análise de sobrevivência

A análise de sobrevivência é usada de várias maneiras:

Definições de termos comuns em análise de sobrevivência

Os seguintes termos são comumente usados ​​em análises de sobrevivência:

  • Evento: morte, ocorrência de doença, recorrência de doença, recuperação ou outra experiência de interesse
  • Tempo: O tempo desde o início de um período de observação (como cirurgia ou início do tratamento) até (i) um evento, ou (ii) final do estudo, ou (iii) perda de contato ou retirada do estudo.
  • Observação de censura / censura: a censura ocorre quando temos algumas informações sobre o tempo de sobrevivência individual, mas não sabemos exatamente o tempo de sobrevivência. O assunto é censurado no sentido de que nada é observado ou conhecido sobre aquele assunto após o tempo de censura. Um sujeito censurado pode ou não ter um evento após o término do tempo de observação.
  • Função de sobrevivência S (t): A probabilidade de um sujeito sobreviver mais do que o tempo t.

Exemplo: dados de sobrevivência de leucemia mielóide aguda

Este exemplo usa o conjunto de dados de sobrevivência de leucemia mielóide aguda "aml" do pacote "sobrevivência" em R. O conjunto de dados é de Miller (1997) e a questão é se o curso padrão de quimioterapia deve ser estendido ('mantido') por ciclos adicionais.

O conjunto de dados aml classificado por tempo de sobrevivência é mostrado na caixa.

conjunto de dados aml classificado por tempo de sobrevivência
  • O tempo é indicado pela variável "tempo", que é o tempo de sobrevivência ou censura
  • O evento (recorrência do câncer de aml) é indicado pela variável "status". 0  = nenhum evento (censurado), 1  = evento (recorrência)
  • Grupo de tratamento: a variável "x" indica se a quimioterapia de manutenção foi administrada

A última observação (11), de 161 semanas, é censurada. A censura indica que o paciente não teve um evento (sem recorrência do câncer de aml). Outro assunto, observação 3, foi censurado em 13 semanas (indicado por status = 0). Este sujeito esteve no estudo por apenas 13 semanas, e o câncer de aml não voltou a ocorrer durante essas 13 semanas. É possível que esse paciente tenha sido inscrito próximo ao final do estudo, para que pudessem ser observados por apenas 13 semanas. Também é possível que o paciente tenha sido inscrito no início do estudo, mas tenha perdido o acompanhamento ou tenha se retirado do estudo. A tabela mostra que outros assuntos foram censurados em 16, 28 e 45 semanas (observações 17, 6 e  9 com status = 0). Os demais participantes experimentaram todos os eventos (recorrência de câncer de aml) durante o estudo. A questão de interesse é se a recorrência ocorre mais tarde em pacientes mantidos do que em pacientes não mantidos.

Gráfico de Kaplan-Meier para os dados aml

A função de sobrevivência S ( t ), é a probabilidade de que um sujeito sobreviva mais do que o tempo t . S ( t ) é teoricamente uma curva suave, mas geralmente é estimada usando a curva de Kaplan-Meier (KM). O gráfico mostra o gráfico KM para os dados aml e pode ser interpretado da seguinte forma:

  • O eixo x é o tempo, de zero (quando a observação começou) até o último ponto no tempo observado.
  • O eixo y é a proporção de indivíduos sobreviventes. No tempo zero, 100% dos sujeitos estão vivos sem um evento.
  • A linha sólida (semelhante a uma escada) mostra a progressão das ocorrências de eventos.
  • Uma queda vertical indica um evento. Na tabela AMl mostrada acima, dois sujeitos tiveram eventos em cinco semanas, dois tiveram eventos em oito semanas, um teve um evento em nove semanas e assim por diante. Esses eventos em cinco semanas, oito semanas e assim por diante são indicados pelas quedas verticais no gráfico KM nesses pontos de tempo.
  • Na extremidade direita do gráfico KM, há uma marca de verificação em 161 semanas. A marca de verificação vertical indica que um paciente foi censurado neste momento. Na tabela de dados aml cinco sujeitos foram censurados, às 13, 16, 28, 45 e 161 semanas. Existem cinco marcas de escala no gráfico KM, correspondendo a essas observações censuradas.

Tábua de vida para os dados aml

Uma tábua de vida resume os dados de sobrevivência em termos do número de eventos e a proporção de sobreviventes em cada ponto de tempo do evento. A tabela de vida para os dados aml, criada usando o  software R , é mostrada.

Tábua de vida para os dados aml

A tabela de vida resume os eventos e a proporção sobrevivente em cada ponto de tempo do evento. As colunas da tábua de vida têm a seguinte interpretação:

  • time fornece os pontos de tempo em que os eventos ocorrem.
  • n.risk é o número de indivíduos em risco imediatamente antes do ponto de tempo, t. Estar "em risco" significa que o sujeito não teve um evento antes do momento t e não foi censurado antes ou no momento t.
  • n.event é o número de sujeitos que têm eventos no tempo t.
  • a sobrevivência é a proporção de sobreviventes, conforme determinado usando a estimativa do limite do produto de Kaplan-Meier.
  • std.err é o erro padrão da sobrevivência estimada. O erro padrão da estimativa do limite do produto de Kaplan-Meier é calculado usando a fórmula de Greenwood e depende do número em risco (n.risco na tabela), o número de mortes (n.evento na tabela) e a proporção sobrevivendo (sobrevivência na tabela).
  • IC 95% inferior e IC 95% superior são os limites de confiança de 95% inferior e superior para a proporção de sobreviventes.

Teste de log-rank: Teste de diferenças na sobrevivência nos dados aml

O teste de log-rank compara os tempos de sobrevivência de dois ou mais grupos. Este exemplo usa um teste de log-rank para uma diferença na sobrevivência nos grupos de tratamento mantidos versus não mantidos nos dados aml. O gráfico mostra plotagens KM para os dados aml divididos por grupo de tratamento, o que é indicado pela variável "x" nos dados.

Gráfico de Kaplan-Meier por grupo de tratamento em aml

A hipótese nula para um teste de log-rank é que os grupos têm a mesma sobrevivência. O número esperado de sujeitos sobreviventes em cada momento em cada um é ajustado para o número de sujeitos em risco nos grupos em cada momento do evento. O teste de log-rank determina se o número observado de eventos em cada grupo é significativamente diferente do número esperado. O teste formal é baseado em uma estatística qui-quadrado. Quando a estatística de log-rank é grande, é evidência de uma diferença nos tempos de sobrevivência entre os grupos. A estatística de log-rank tem aproximadamente uma distribuição qui-quadrado com um grau de liberdade, e o valor p é calculado usando a distribuição qui-quadrado.

Para os dados de exemplo, o teste de log-rank para diferença na sobrevivência dá um valor p de p = 0,0653, indicando que os grupos de tratamento não diferem significativamente na sobrevivência, assumindo um nível alfa de 0,05. O tamanho da amostra de 23 indivíduos é modesto, portanto, há pouco poder para detectar diferenças entre os grupos de tratamento. O teste qui-quadrado é baseado na aproximação assintótica, portanto, o valor p deve ser considerado com cautela para tamanhos de amostra pequenos.

Análise de regressão de riscos proporcionais de Cox (PH)

As curvas de Kaplan-Meier e os testes de log-rank são mais úteis quando a variável preditora é categórica (por exemplo, medicamento vs. placebo) ou assume um pequeno número de valores (por exemplo, doses de medicamento 0, 20, 50 e 100 mg / dia ) que podem ser tratados como categóricos. O teste de log-rank e as curvas KM não funcionam facilmente com preditores quantitativos, como expressão gênica, contagem de glóbulos brancos ou idade. Para variáveis ​​preditoras quantitativas, um método alternativo é a análise de regressão de riscos proporcionais de Cox . Os modelos Cox PH funcionam também com variáveis ​​preditoras categóricas, que são codificadas como indicadores {0,1} ou variáveis ​​dummy. O teste de log-rank é um caso especial de análise Cox PH e pode ser executado com o software Cox PH.

Exemplo: análise de regressão de riscos proporcionais de Cox para melanoma

Este exemplo usa o conjunto de dados de melanoma do Capítulo 14 de Dalgaard.

Os dados estão no pacote R ISwR. A regressão de riscos proporcionais de Cox usando  R fornece os resultados mostrados na caixa.

Saída de regressão de riscos proporcionais de Cox para dados de melanoma. A variável preditora é sexo 1: feminino, 2: masculino.

Os resultados da regressão de Cox são interpretados da seguinte forma.

  • O sexo é codificado como um vetor numérico (1: feminino, 2: masculino). O  resumo R para o modelo de Cox fornece a taxa de risco (HR) para o segundo grupo em relação ao primeiro grupo, ou seja, masculino versus feminino.
  • coef = 0,662 é o logaritmo estimado da razão de risco para homens e mulheres.
  • exp (coef) = 1,94 = exp (0,662) - O log da razão de risco (coef = 0,662) é transformado para a razão de risco usando exp (coef). O resumo do modelo de Cox fornece a taxa de risco para o segundo grupo em relação ao primeiro grupo, ou seja, masculino versus feminino. A razão de risco estimada de 1,94 indica que os homens têm maior risco de morte (taxas de sobrevivência mais baixas) do que as mulheres, nesses dados.
  • se (coef) = 0,265 é o erro padrão da razão de risco log.
  • z = 2,5 = coef / se (coef) = 0,662 / 0,265. Dividindo o coeficiente por seu erro padrão, obtém-se a pontuação z.
  • p = 0,013. O valor de p correspondente a z = 2,5 para sexo é p = 0,013, indicando que há uma diferença significativa na sobrevida em função do sexo.

O resultado do resumo também fornece intervalos de confiança de 95% superior e inferior para a razão de risco: limite inferior de 95% = 1,15; limite superior de 95% = 3,26.

Finalmente, a saída fornece valores-p para três testes alternativos para a significância geral do modelo:

  • Teste da razão de verossimilhança = 6,15 em 1 df, p = 0,0131
  • Teste de Wald = 6,24 em 1 df, p = 0,0125
  • Teste de pontuação (log-rank) = 6,47 em 1 df, p = 0,0110

Esses três testes são assintoticamente equivalentes. Para N grande o suficiente, eles darão resultados semelhantes. Para N pequeno, eles podem diferir um pouco. A última linha, "Teste de pontuação (logrank)" é o resultado do teste de log-rank, com p = 0,011, o mesmo resultado do teste de log-rank, porque o teste de log-rank é um caso especial de um Cox PH regressão. O teste de razão de verossimilhança tem melhor comportamento para tamanhos de amostra pequenos, por isso é geralmente preferido.

Modelo de Cox usando uma covariável nos dados de melanoma

O modelo de Cox estende o teste de log-rank, permitindo a inclusão de covariáveis ​​adicionais. Este exemplo usa o conjunto de dados de melanoma onde as variáveis ​​preditoras incluem uma covariável contínua, a espessura do tumor (nome da variável = "espessura").

Histogramas da espessura do tumor melanoma

Nos histogramas, os valores de espessura não parecem normalmente distribuídos. Modelos de regressão, incluindo o modelo de Cox, geralmente fornecem resultados mais confiáveis ​​com variáveis ​​normalmente distribuídas. Para este exemplo, use uma transformação de log. O registro da espessura do tumor parece ter uma distribuição mais normal, então os modelos de Cox usarão a espessura do registro. A análise Cox PH fornece os resultados na caixa.

Saída Cox PH para conjunto de dados de melanoma com espessura de tumor de log de covariável

O valor de p para todos os três testes gerais (probabilidade, Wald e pontuação) são significativos, indicando que o modelo é significativo. O valor de p para log (espessura) é 6,9e-07, com uma razão de risco HR = exp (coef) = 2,18, indicando uma forte relação entre a espessura do tumor e o aumento do risco de morte.

Em contraste, o valor de p para sexo agora é p = 0,088. A razão de risco HR = exp (coef) = 1,58, com um intervalo de confiança de 95% de 0,934 a 2,68. Como o intervalo de confiança para HR inclui 1, esses resultados indicam que o sexo faz uma contribuição menor para a diferença na HR após o controle da espessura do tumor, e apenas tendência à significância. O exame dos gráficos de log (espessura) por sexo e um teste t de log (espessura) por sexo indicam que há uma diferença significativa entre homens e mulheres na espessura do tumor quando consultam o médico pela primeira vez.

O modelo de Cox assume que os riscos são proporcionais. A suposição de risco proporcional pode ser testada usando a  função R cox.zph (). Um valor p inferior a 0,05 indica que os perigos não são proporcionais. Para os dados de melanoma, p = 0,222, indicando que os riscos são, pelo menos aproximadamente, proporcionais. Testes e gráficos adicionais para examinar um modelo de Cox são descritos nos livros citados.

Extensões para modelos Cox

Os modelos de Cox podem ser estendidos para lidar com variações na análise simples.

  • Estratificação. Os sujeitos podem ser divididos em estratos, onde se espera que os sujeitos dentro de um estrato sejam relativamente mais semelhantes entre si do que com sujeitos escolhidos aleatoriamente de outros estratos. Os parâmetros de regressão são considerados os mesmos em todos os estratos, mas pode existir um risco de linha de base diferente para cada estrato. A estratificação é útil para análises usando assuntos correspondentes, para lidar com subconjuntos de pacientes, como diferentes clínicas, e para lidar com violações da suposição de risco proporcional.
  • Covariáveis ​​variáveis ​​no tempo. Algumas variáveis, como sexo e grupo de tratamento, geralmente permanecem as mesmas em um ensaio clínico. Outras variáveis ​​clínicas, como níveis de proteína sérica ou dose de medicamentos concomitantes, podem mudar ao longo do estudo. Os modelos de Cox podem ser estendidos para essas covariáveis ​​que variam no tempo.

Modelos de sobrevivência estruturados em árvore

O modelo de regressão Cox PH é um modelo linear. É semelhante à regressão linear e à regressão logística. Especificamente, esses métodos assumem que uma única linha, curva, plano ou superfície é suficiente para separar grupos (vivos, mortos) ou para estimar uma resposta quantitativa (tempo de sobrevivência).

Em alguns casos, as partições alternativas fornecem classificações mais precisas ou estimativas quantitativas. Um conjunto de métodos alternativos são modelos de sobrevivência estruturados em árvore, incluindo florestas aleatórias de sobrevivência. Modelos de sobrevivência estruturados em árvore podem fornecer previsões mais precisas do que os modelos de Cox. Examinar os dois tipos de modelos para um determinado conjunto de dados é uma estratégia razoável.

Exemplo de análise de árvore de sobrevivência

Este exemplo de uma análise de árvore de sobrevivência usa o  pacote R "rpart". O exemplo é baseado em 146  pacientes com câncer de próstata em estágio C no conjunto de dados stagec in rpart. Rpart e o exemplo stagec são descritos no documento PDF "Uma introdução ao particionamento recursivo usando as rotinas RPART". Terry M. Therneau, Elizabeth J. Atkinson, Fundação Mayo. 3 de setembro de 1997.

As variáveis ​​em etapas são:

  • pgtime : tempo para progressão, ou último acompanhamento sem progressão
  • pgstat : status no último acompanhamento (1 = progrediu, 0 = censurado)
  • idade : idade no diagnóstico
  • eet : terapia endócrina precoce (1 = não, 0 = sim)
  • ploidia : padrão de DNA diplóide / tetraplóide / aneuploide
  • g2 :% de células na fase G2
  • grau : grau do tumor (1-4)
  • gleason : grau de Gleason (3-10)

A árvore de sobrevivência produzida pela análise é mostrada na figura.

Árvore de sobrevivência para conjunto de dados de câncer de próstata

Cada ramo da árvore indica uma divisão no valor de uma variável. Por exemplo, a raiz da árvore divide disciplinas com nota <2,5 versus disciplinas com nota 2,5 ou mais. Os nós terminais indicam o número de assuntos no nó, o número de assuntos que têm eventos e a taxa de eventos relativa em comparação com a raiz. No nó da extrema esquerda, os valores 1/33 indicam que um dos 33 sujeitos no nó teve um evento e que a taxa relativa de eventos é 0,122. No nó na extremidade direita inferior, os valores 11/15 indicam que 11 dos 15 assuntos no nó tiveram um evento, e a taxa relativa de eventos é 2,7.

Sobrevivência de florestas aleatórias

Uma alternativa para construir uma única árvore de sobrevivência é construir muitas árvores de sobrevivência, onde cada árvore é construída usando uma amostra dos dados e calcula a média das árvores para prever a sobrevivência. Este é o método subjacente aos modelos florestais aleatórios de sobrevivência. A análise aleatória de sobrevivência da floresta está disponível no  pacote R "randomForestSRC".

O pacote randomForestSRC inclui um exemplo de análise de floresta aleatória de sobrevivência usando o conjunto de dados pbc. Esses dados são do estudo de Cirrose Biliar Primária da Mayo Clinic (PBC) do fígado conduzido entre 1974 e 1984. No exemplo, o modelo de sobrevivência da floresta aleatória fornece previsões mais precisas de sobrevivência do que o modelo Cox PH. Os erros de predição são estimados por reamostragem de bootstrap .

Formulação geral

Função de sobrevivência

O objeto de interesse primário é a função de sobrevivência , convencionalmente denotada S , que é definida como

onde t é algum tempo, T é uma variável aleatória que denota a hora da morte e "Pr" significa probabilidade . Ou seja, a função de sobrevivência é a probabilidade de que a hora da morte seja posterior a algum tempo t especificado . A função de sobrevivência também é chamada de função de sobrevivente ou função de sobrevivência em problemas de sobrevivência biológica, e a função de confiabilidade em problemas de sobrevivência mecânica. No último caso, a função de confiabilidade é denotada por R ( t ).

Normalmente assume-se S (0) = 1, embora possa ser menor que 1  se houver possibilidade de morte imediata ou falha.

A função de sobrevivência deve ser não crescente: S ( u ) ≤ S ( t ) se ut . Essa propriedade segue diretamente porque T > u implica T > t . Isso reflete a noção de que a sobrevivência até uma idade posterior só é possível se todas as idades mais jovens forem atingidas. Dada essa propriedade, a função de distribuição do tempo de vida e a densidade de eventos ( F e f abaixo) são bem definidas.

A função de sobrevivência é geralmente assumida como se aproximando de zero conforme a idade aumenta sem limites (isto é, S ( t ) → 0 como t → ∞), embora o limite possa ser maior que zero se a vida eterna for possível. Por exemplo, poderíamos aplicar a análise de sobrevivência a uma mistura de isótopos de carbono estáveis ​​e instáveis ; isótopos instáveis ​​decairiam mais cedo ou mais tarde, mas os isótopos estáveis ​​durariam indefinidamente.

Função de distribuição ao longo da vida e densidade de eventos

Quantidades relacionadas são definidas em termos da função de sobrevivência.

A função de distribuição de vida , convencionalmente denotada por F , é definida como o complemento da função de sobrevivência,

Se F é diferenciável, então a derivada, que é a função de densidade da distribuição do tempo de vida, é convencionalmente denotada por f ,

A função f às vezes é chamada de densidade de eventos ; é a taxa de eventos de morte ou falha por unidade de tempo.

A função de sobrevivência pode ser expressa em termos de distribuição de probabilidade e funções de densidade de probabilidade

Da mesma forma, uma função de densidade de evento de sobrevivência pode ser definida como

Em outros campos, como a física estatística, a função de densidade de eventos de sobrevivência é conhecida como densidade de tempo de primeira passagem .

Função de risco e função de risco cumulativo

A função de risco , convencionalmente denotada ou , é definida como a taxa de eventos no tempo condicional à sobrevivência até o tempo ou mais tarde (isto é, ). Suponha que um item tenha sobrevivido por um tempo e desejamos a probabilidade de que ele não sobreviva por mais um tempo :

Força de mortalidade é um sinônimo de função de risco que é usada particularmente em demografia e ciências atuariais , onde é denotada por . O termo taxa de risco é outro sinônimo.

A força de mortalidade da função de sobrevivência é definida como

A força da mortalidade também é chamada de força do fracasso. É a função de densidade de probabilidade da distribuição de mortalidade.

Na ciência atuarial, a taxa de risco é a taxa de mortalidade para os idosos . Para uma vida envelhecida , a força da mortalidade anos depois é a força da mortalidade por um ano de idade. A taxa de risco também é chamada de taxa de falha. Taxa de risco e taxa de falha são nomes usados ​​na teoria da confiabilidade.

Qualquer função é uma função de risco se e somente se satisfizer as seguintes propriedades:

  1. ,
  2. .

Na verdade, a taxa de risco costuma ser mais informativa sobre o mecanismo de falha subjacente do que as outras representações de uma distribuição vitalícia.

A função de risco deve ser não negativa, e sua integral sobre deve ser infinita, mas não é restrita de outra forma; pode ser crescente ou decrescente, não monotônico ou descontínuo. Um exemplo é a função de risco da curva da banheira , que é grande para pequenos valores de , diminuindo para um mínimo e, a partir daí, aumentando novamente; isso pode modelar a propriedade de alguns sistemas mecânicos de falhar logo após a operação ou muito mais tarde, conforme o sistema envelhece.

A função de risco pode, alternativamente, ser representada em termos da função de risco cumulativo , convencionalmente denotada ou :

então transpondo sinais e exponenciando

ou diferenciando (com a regra da cadeia)

O nome "função de risco cumulativo" é derivado do fato de que

que é a "acumulação" do perigo ao longo do tempo.

A partir da definição de , vemos que aumenta sem limite à medida que t tende para o infinito (assumindo que tende para zero). Isso implica que não deve diminuir muito rapidamente, uma vez que, por definição, o risco cumulativo deve divergir. Por exemplo, não é a função de risco de qualquer distribuição de sobrevivência, porque sua integral converge para 1.

A função de sobrevivência , a função de risco cumulativo , a densidade , a função de risco e a função de distribuição de vida estão relacionadas por meio

Quantidades derivadas da distribuição de sobrevivência

A vida futura em um determinado momento é o tempo restante até a morte, dada a sobrevivência até a idade . Portanto, está na notação atual. O tempo de vida futuro esperado é o valor esperado do tempo de vida futuro. A probabilidade de morte na idade ou antes da idade , dada a sobrevivência até a idade , é apenas

Portanto, a densidade de probabilidade de vida futura é

e a vida futura esperada é

onde a segunda expressão é obtida usando integração por partes .

Pois , isto é, no nascimento, isso se reduz ao tempo de vida esperado.

Em problemas de confiabilidade, a vida útil esperada é chamada de tempo médio até a falha e a vida útil futura esperada é chamada de vida útil residual média .

Como a probabilidade de um indivíduo sobreviver até a idade t ou mais tarde é S ( t ), por definição, o número esperado de sobreviventes na idade t de uma população inicial de n recém-nascidos é n × S ( t ), assumindo a mesma função de sobrevivência para todos os indivíduos. Assim, a proporção esperada de sobreviventes é S ( t ). Se a sobrevivência de diferentes indivíduos é independente, o número de sobreviventes na idade t tem uma distribuição binomial com os parâmetros n e S ( t ), e a variância da proporção de sobreviventes é S ( t ) × (1- S ( t ) ) / n .

A idade em que uma determinada proporção de sobreviventes permanece pode ser encontrada resolvendo a equação S ( t ) = q para t , onde q é o quantil em questão. Normalmente, alguém está interessado na vida média , para a qual q = 1/2, ou outros quantis, como q = 0,90 ou q = 0,99.

Censura

A censura é uma forma de problema de perda de dados em que o tempo até o evento não é observado por motivos como o encerramento do estudo antes que todos os sujeitos recrutados tenham mostrado o evento de interesse ou o sujeito tenha deixado o estudo antes de experimentar um evento. A censura é comum na análise de sobrevivência.

Se apenas o limite inferior l para o tempo verdadeiro do evento T for conhecido como T > l , isso é chamado de censura à direita . A censura à direita ocorrerá, por exemplo, para aqueles indivíduos cuja data de nascimento é conhecida, mas que ainda estão vivos quando perderam o acompanhamento ou quando o estudo terminou. Geralmente encontramos dados censurados à direita.

Se o evento de interesse já aconteceu antes de o sujeito ser incluído no estudo, mas não se sabe quando ocorreu, os dados são considerados censurados à esquerda . Quando só se pode dizer que o evento aconteceu entre duas observações ou exames, trata-se de censura de intervalo .

A censura à esquerda ocorre, por exemplo, quando um dente permanente já emergiu antes do início de um estudo odontológico que visa estimar sua distribuição de emergência. No mesmo estudo, um tempo de emergência é censurado por intervalo quando o dente permanente está presente na boca no exame atual, mas ainda não no exame anterior. A censura de intervalo ocorre freqüentemente em estudos de HIV / AIDS. Na verdade, o tempo para a soroconversão do HIV pode ser determinado apenas por uma avaliação laboratorial, que geralmente é iniciada após uma visita ao médico. Então, só se pode concluir que a soroconversão do HIV aconteceu entre dois exames. O mesmo vale para o diagnóstico de AIDS, que se baseia em sintomas clínicos e precisa ser confirmado por meio de exame médico.

Também pode acontecer que os indivíduos com uma vida útil inferior a algum limiar não sejam observados de forma alguma: isso é chamado de truncamento . Observe que o truncamento é diferente da censura à esquerda, pois para um dado censurado à esquerda, sabemos que o assunto existe, mas para um dado truncado, podemos estar completamente inconscientes do assunto. O truncamento também é comum. Em um chamado estudo de entrada retardada , os indivíduos não são observados até que atinjam uma certa idade. Por exemplo, as pessoas podem não ser observadas antes de atingirem a idade de entrar na escola. Quaisquer sujeitos falecidos na faixa etária pré-escolar seriam desconhecidos. Os dados truncados à esquerda são comuns no trabalho atuarial de seguro de vida e pensões.

Os dados censurados à esquerda podem ocorrer quando o tempo de sobrevivência de uma pessoa se torna incompleto no lado esquerdo do período de acompanhamento da pessoa. Por exemplo, em um exemplo epidemiológico, podemos monitorar um paciente quanto a um distúrbio infeccioso a partir do momento em que ele ou ela for testado positivo para a infecção. Embora possamos saber o lado direito da duração do interesse, talvez nunca saibamos o tempo exato de exposição ao agente infeccioso.

Ajustando parâmetros aos dados

Os modelos de sobrevivência podem ser vistos de forma útil como modelos de regressão comuns nos quais a variável de resposta é o tempo. No entanto, calcular a função de verossimilhança (necessária para ajustar parâmetros ou fazer outros tipos de inferências) é complicado pela censura. A função de verossimilhança para um modelo de sobrevivência, na presença de dados censurados, é formulada como segue. Por definição, a função de verossimilhança é a probabilidade condicional dos dados dados os parâmetros do modelo. É comum presumir que os dados são independentes de acordo com os parâmetros. Então, a função de verossimilhança é o produto da verossimilhança de cada dado. É conveniente dividir os dados em quatro categorias: não censurado, censurado à esquerda, censurado à direita e censurado por intervalo. Estes são denotados "unc.", "Lc", "rc" e "ic" na equação abaixo.

Para dados não censurados, com idade igual à morte, temos

Para dados censurados à esquerda, de forma que a idade na morte seja menor do que , temos

Para dados censurados à direita, de forma que a idade na morte seja maior do que , temos

Para um dado de intervalo censurado, de modo que a idade na morte seja conhecida como menor e maior do que , temos

Uma aplicação importante onde os dados censurados por intervalo surgem são os dados de status atual, onde um evento é conhecido por não ter ocorrido antes de um tempo de observação e ter ocorrido antes do próximo tempo de observação.

Estimativa não paramétrica

O estimador Kaplan-Meier pode ser usado para estimar a função de sobrevivência. O estimador de Nelson-Aalen pode ser usado para fornecer uma estimativa não paramétrica da função de taxa de risco cumulativa.

Software de computador para análise de sobrevivência

O livro de Kleinbaum tem exemplos de análises de sobrevivência usando SAS, R e outros pacotes. Os livros de Brostrom, Dalgaard e Tableman e Kim fornecem exemplos de análises de sobrevivência usando R (ou usando S, e que são executadas em R).

Distribuições usadas na análise de sobrevivência

Formulários

Veja também

Referências

Leitura adicional

  • Collett, David (2003). Modeling Survival Data in Medical Research (Second ed.). Boca Raton: Chapman & Hall / CRC. ISBN 1584883251.
  • Elandt-Johnson, Regina; Johnson, Norman (1999). Modelos de sobrevivência e análise de dados . Nova York: John Wiley & Sons. ISBN 0471349925.
  • Kalbfleisch, JD; Prentice, Ross L. (2002). A análise estatística dos dados de tempo de falha . Nova York: John Wiley & Sons. ISBN 047136357X.
  • Lawless, Jerald F. (2003). Modelos e métodos estatísticos para dados vitalícios (2ª ed.). Hoboken: John Wiley and Sons. ISBN 0471372153.
  • Rausand, M .; Hoyland, A. (2004). Teoria da confiabilidade do sistema: modelos, métodos estatísticos e aplicações . Hoboken: John Wiley & Sons. ISBN 047147133X.

links externos