Curso Introdução à Análise de Dados para pesquisa no SUS | Mod 3

Módulo 3 | Aula 2
Modelos Estatísticos: lineares e não lineares

Tópico 2

Modelos de regressão

Os modelos de regressão são ferramentas estatísticas usadas para descrever a relação entre uma variável dependente (ou resposta) e uma ou mais variáveis independentes (ou preditoras). Eles permitem não só prever valores da variável dependente com base nas variáveis independentes, mas também examinar a força e a natureza dessas relações. A variável dependente é também chamada de variável resposta ou desfecho, e a variável independente, de variável explicativa, preditora ou covariável.

Geralmente denotamos a variável dependente de Y e as k variáveis independentes de X₁,X₂,…,X_k. Os objetivos do estudo da regressão são avaliar uma possível associação de Y em relação a X e expressar matematicamente essa relação por meio de uma equação.

Os principais tipos de modelos de regressão utilizados na área da saúde são: regressão linear, regressão logística e regressão Poisson.

Regressão linear simples

A regressão linear simples descreve a relação entre uma variável dependente e uma variável independente a partir de equações de linhas retas, por isso o termo linear. O termo simples é usado porque é utilizada apenas uma variável explicativa. O modelo assume que a relação entre a variável explicativa X e o desfecho Y é linear, expressa pela equação:

Y = β_{0} + β_{1} X + ε

Em que:

β₀ é o intercepto (valor de Y quando X=0).
β₁ é o coeficiente angular (a inclinação da linha, que indica a mudança em Y para cada unidade de mudança em X).
ϵ é o termo de erro, que captura a variação em Y não explicada por X.

A figura a seguir ilustra a equação da reta.

Exemplo

Voltando ao exemplo da pressão sistólica e idade, já vimos que existe uma relação linear positiva entre elas, mas a relação não é perfeita. Nesse caso, a variável desfecho Y é a pressão sistólica e a variável explicativa X é a idade do paciente. A figura linha vermelha na imagem a seguir ilustra a equação da reta.

Existe uma dispersão dos pontos sugerindo que a variação da pressão sistólica não é explicada apenas pela idade. O método dos mínimos quadros é o método utilizado para estimar os coeficientes β₀ e β₁, assim chamados porque garantem que a reta obtida é aquela na qual se tem as menores distâncias (ao quadrado) entre os valores observados (Y) e a própria reta. A figura a seguir ilustra a ideia do método dos mínimos quadrados. O objetivo é encontrar a reta que minimiza a soma dos resíduos (diferença entre o observado e o estimado pele reta) ao quadrado.

A partir de um software estatístico, podemos obter as estimativas de β₀ e β₁. No R, usando o comando lm. A equação da reta obtida é igual a:

\hat{Y} = 98,71 + 0,97 X

Interpretação dos parâmetros:

Intercepto: β₀ = 98,71, valor da pressão arterial sistólica quando idade (X=0). Nesse caso, a interpretação não faz sentido.

Inclinação da reta: β₁ = 0,97, cada ano a mais na idade corresponde a um aumento médio de 0,97 mmHg na pressão arterial sistólica.

Podemos verificar se existe associação estatisticamente significativa entre idade e pressão arterial. As hipóteses para a realização do teste são:

H₀: β₁ = 0

H₁: β₁ ≠ 0

O teste de Wald é utilizado para testar as hipóteses acima e a decisão pode ser tomada com base no p-valor obtido. Utilizando o R, obtemos um p-valor < 0,001. Então, rejeitamos H₀, ou seja, existe uma associação estatisticamente significativa em torno de 5% entre idade e pressão arterial.

A reta de regressão permite:

Representar a dependência de uma variável quantitativa em relação à outra por meio de uma equação simples.
Prever valores para a variável dependente de acordo com valores determinados (inclusive não observados) da variável independente, desde que estejam dentro da faixa de valores estudados. Por exemplo, podemos prever a pressão sistólica média de um paciente de 50 anos.

\hat{Y} = 98,71 + 0,97 \times 50 = 147,21

Os pressupostos do modelo de regressão linear são:

A relação entre a variável dependente Y e a variável independente X deve ser linear.

Os erros devem ser independentes entre si.

A variância dos erros deve ser constante ao longo de todos os valores da variável independente X.

Os resíduos do modelo devem ser normalmente distribuídos. Isso é especialmente importante para a validade de testes estatísticos e intervalos de confiança.

A qualidade de ajuste no modelo de regressão linear é avaliada pelo coeficiente de determinação denotado por R2, que é a proporção da variabilidade total observada de Y, explicada pela regressão. Quanto maior o R2, melhor a qualidade de ajuste do modelo. Existem várias técnicas para verificar os pressupostos e fazer diagnóstico dos modelos de regressão.

Para saber mais sobre regressão linear simples, assista este vídeo..

Faça você mesmo!

É hora de praticar! No script modulo3aula2_atividades.R (Atividades 2 e 5), ajuste um modelo de regressão linear simples (PA ~ idade), interprete os coeficientes β₀ e β₁, visualize a reta de regressão e avalie os pressupostos através dos gráficos de diagnóstico.

Regressão linear múltipla

A regressão linear múltipla é uma extensão da regressão linear simples que permite modelar a relação entre uma variável dependente Y e várias variáveis independentes X₁,X₂,…,X_k. A equação é:

Y = β_{0} + β_{1} X_{1} + β_{2} X_{2} + \dots + β_{k} X_{k} + ε

Em que:

β₀ é o intercepto (valor de Y quando X=0).
β_j é a inclinação da reta que mede a mudança em Y para cada unidade de mudança em X_j, j=1,...,k.
ϵ é o erro aleatório referente à variável Y, que não pode ser explicado pelas preditoras incluídas no modelo.

Exemplo

Voltando ao exemplo da pressão sistólica, suponha que, além de idade, temos informação sobre o sexo do paciente. Podemos ajustar um modelo de regressão linear múltipla considerando como variáveis explicativas idade (X₁) e sexo (X₂). A partir de um software estatístico, podemos obter as estimativas de β₀, β₁e β₁. No R, usamos o comando lm. A equação da reta obtida é igual a:

\hat{Y} = 101,03 + 0,95 X_{1} - 2,41 X_{2}

Interpretação dos parâmetros:

β₀ = 101,03, valor da pressão arterial sistólica quando idade (X=0). Nesse caso, a interpretação não faz sentido.

β₁ = 0,95, cada ano a mais na idade corresponde a um aumento médio de 0,95 mmHg na pressão arterial sistólica, ajustado por sexo.

β₂ = -2,41, os homens têm redução média de 2,41 mmHg na pressão arterial sistólica, ajustado por idade. O modelo foi ajustado considerando-se o sexo feminino como categoria de referência.

Testes de hipóteses para verificar a significância dos coeficientes são similares aos testes do modelo de regressão linear simples. Assim como os pressupostos, a medida de qualidade de ajuste e os métodos de diagnóstico dos modelos de regressão linear simples e múltipla são similares.

Faça você mesmo!

É hora de praticar! No script modulo3aula2_atividades.R (Atividade 3), ajuste um modelo de regressão múltipla (PA ~ idade + sexo), interprete os coeficientes ajustados e experimente incluir interação entre as variáveis.

Regressão logística

O modelo de regressão logística avalia a relação entre uma variável dependente binária (ou dicotômica) e uma ou mais variáveis independentes. É útil quando o objetivo é modelar a probabilidade de o desfecho ocorrer ou, ainda, estimar a razão de chances, medida de associação bastante utilizada em epidemiologia. Alguns exemplos de variável binária de interesse na saúde: doente (sim/não), inatividade física (sim/não), obesidade (sim/não) etc. A codificação mais comum é atribuirmos os valores 0 e 1 para esse tipo de desfecho. O valor 1 indica “sucesso” e 0 “fracasso”. Por exemplo, se estamos interessados em estudar os fatores de risco associados a uma determinada doença, o “sucesso” será ter a doença e atribuímos o valor 1. O gráfico a seguir ilustra a vantagem da regressão logística para desfechos binários. A regressão logística utiliza a função logística (sigmoide) para modelar a probabilidade de um evento.

Assim como no modelo de regressão linear, as variáveis independentes podem ser numéricas ou categóricas. A regressão logística examina como essas variáveis influenciam a probabilidade de ocorrência do evento: seja Y a variável desfecho com valores 0 e 1. Então, assumimos que Y tem uma distribuição de Bernoulli com parâmetro p. A regressão logística modela o logit da probabilidade como uma função linear das variáveis independentes

\log (\frac{p}{1 - p}) = β_{0} + β_{1} X_{1} + β_{2} X_{2} + \dots + β_{k} X_{k}

Em que:

Logit é o logaritmo da razão de chances.
β₀ é o intercepto e indica o logit da probabilidade de Y=1 quando todas as variáveis independentes são zero.
β_j coeficiente que representa a mudança no logit da probabilidade de Y=1 para cada unidade de aumento na variável independente Xj. Na prática, podemos interpretar exponencial de β_j como a razão de chances associada a X_j.

Exemplo

Um estudo foi conduzido na população adulta com o objetivo de identificar fatores associados a autoavaliação de saúde (AAS) ruim. O desfecho AAS ruim foi categorizado em sim/não e as possíveis variáveis explicativas foram idade, sexo e inatividade física. Como o desfecho é binário e temos mais de uma variável explicativa, a regressão logística múltipla é adequada para responder ao objetivo do estudo. Utilizando-se um software estatístico é possível estimar os coeficientes β₀, β₁, β₂ e β₃. No R, o comando glm com o argumento family=”binomial” é utilizado no ajuste do modelo de regressão logística.

A equação de regressão estimada foi igual a:

\hat{Y} = 101,03 + 0,95 X_{1} - 2,41 X_{2}

Em que:

X₁: inatividade física (1 - sim, 0 - não).
X₂: sexo (1 - feminino, 0 - masculino).
X₃: idade numérica.

As variáveis X₁ e X₂ são categóricas e as categorias de referências são, respectivamente, não inativo (ativo) e sexo masculino. A partir da equação é possível estimar probabilidade de autoavaliação de saúde ruim com base nas variáveis explicativas utilizadas. Por exemplo, suponha uma mulher inativa fisicamente de 75 anos, ou seja, X₁ = 1, X₂ = 1 e X₃ = 75. Ao substituir na equação de regressão ajustada, obtemos uma probabilidade estimada de autoavaliação de saúde ruim de 0,119. Além de calcular probabilidades, podemos calcular a razão de chances (OR) e o respectivo intervalo de confiança de 95% (IC95%). A tabela a seguir apresenta os resultados.

Interpretação:

A chance de pessoas inativas fisicamente autoavaliarem sua saúde como ruim é 1,93 vezes a chance de pessoas ativas fisicamente autoavaliarem sua saúde como ruim.
A chance de pessoas do sexo feminino autoavaliarem sua saúde como ruim é 2,39 vezes a chance de pessoas do sexo masculino autoavaliarem sua saúde como ruim.
O aumento de 1 ano na idade aumenta a chance de autoavaliação de saúde ruim em 1% (1,01-1).

Para saber mais sobre a obtenção dos coeficientes e da OR no modelo de regressão logística, assista este vídeo..

O método de estimação por máxima verossimilhança é o principal método de estimação dos parâmetros do modelo de regressão logística. O teste de Wald é utilizado para testar a significância dos coeficientes do modelo e a Deviance para comparar os modelos ajustados. Existem também testes de diagnósticos específicos para avaliar os pressupostos do modelo.

Faça você mesmo!

É hora de praticar! No script modulo3aula2_atividades.R (Atividade 4), ajuste um modelo de regressão logística para identificar fatores associados à hipertensão, calcule os Odds Ratios com IC 95% e faça predições de probabilidade para novos pacientes.

Regressão de Poisson

O modelo de regressão de Poisson é utilizado para modelar a contagem de eventos que ocorrem em um intervalo de tempo ou espaço. É apropriado para dados em que a variável dependente é uma contagem, como o número de ocorrências de um evento em um determinado período ou localização geográfica. Alguns exemplos de dados de contagem de interesse na saúde: número de internações por doença respiratória por semana epidemiológica, casos de dengue por bairro no município do Rio de Janeiro, óbitos anuais por câncer de mama por estado. Observem que todos os eventos estão indexados por um período e/ou espaço.

As variáveis independentes podem ser numéricas ou categóricas. A regressão de Poisson avalia como essas variáveis influenciam a média ou a taxa de ocorrência dos eventos: seja Y a variável desfecho representando a contagem em um dado período ou espaço. Então, assumimos que Y tem uma distribuição Poisson com parâmetro λ. A regressão de Poisson modela o log da média ou taxa como uma função linear das variáveis independentes.

\log (λ) = β_{0} + β_{1} X_{1} + β_{2} X_{2} + \dots + β_{k} X_{k}

Em que:

λ é a média esperada de Y.
β₀ é o intercepto.
β₁, β₂,…,β_k são os coeficientes das variáveis independentes X₁, X₂,…,X_k.

Em muitas situações, queremos modelar a taxa e não a média. Nesse caso, devemos introduzir no modelo um termo denominado offset. Em geral, utilizamos o logaritmo da população ou do valor esperado.

Para saber mais sobre a regressão de Poisson, assista este vídeo..

Exemplo

Uma pesquisa foi realizada com o objetivo de avaliar a associação entre fatores climáticos e a incidência de dengue no município do Rio de Janeiro no período de 2001 a 2009. O desfecho foi o número de casos mensais de dengue e as variáveis explicativas climáticas foram temperatura mínima e precipitação acumulada. Como o desfecho representa uma contagem, a regressão de Poisson é adequada para responder ao objetivo do estudo. O logaritmo da população foi introduzido no modelo Poisson a partir de um termo denominado offset, e com isso modelamos a taxa em vez da contagem média. Ao exponenciarmos os coeficientes das variáveis climáticas teremos uma estimativa do Risco Relativo (RR). Utilizando-se um software estatístico é possível estimar os coeficientes β₀, β₁ e β₂. No R, o comando glm com o argumento family=”poisson” é utilizado no ajuste do modelo de regressão de Poisson. A tabela a seguir apresenta os RR e os respectivos intervalos de confiança de 95% estimados.

Interpretação:

O aumento da temperatura mínima e da precipitação aumenta o risco de dengue.
O aumento de 1 °C na temperatura mínima acarretou aumento de aproximadamente 45% (1-1,452) no risco de dengue.
O aumento de 10mm na precipitação acarretou aumento de aproximadamente 0,06% no risco de dengue.

A regressão de Poisson assume que a média é igual à variância (λ). Se a variância observada nos dados for maior do que a média, isso é chamado de superdispersão, de modo que a regressão de Poisson padrão pode não ser apropriada. Uma alternativa seria utilizar a regressão Binomial Negativa. Se houver um número excessivo de zeros na variável dependente, a regressão de Poisson pode não se ajustar bem. Nesse caso, pode-se considerar modelos como o modelo Poisson inflacionado de zeros (ZIP) e a Binomial Negativa inflacionada de zeros (ZINB).

O método de estimação por máxima verossimilhança é o principal método de estimação dos parâmetros do modelo de regressão de Poisson. O teste de Wald é utilizado para testar a significância dos coeficientes do modelo e a Deviance para comparar os modelos ajustados. Existem também testes de diagnósticos específicos para avaliar os pressupostos do modelo.

Os modelos de regressão logística, o modelo de regressão de Poisson e o modelo de regressão linear fazem parte de uma classe de modelos denominada Modelos Lineares Generalizados (GLM, do inglês Generalized Linear Models). Os GLMs são uma extensão dos modelos de regressão linear ao permitir que a variável dependente assuma outras distribuições de probabilidade, como a Binomial e Poisson. O GLM tem flexibilidade para modelar diferentes tipos de variáveis dependentes (contínuas, categóricas, contagens).

Tópico Anterior Próximo tópico

Módulo 3 | Aula 2 Modelos Estatísticos: lineares e não lineares

Modelos de regressão

Regressão linear simples

Exemplo

Linearidade

Independência

Homocedasticidade

Normalidade

Faça você mesmo!

Regressão linear múltipla

Exemplo

Faça você mesmo!

Regressão logística

Exemplo

Faça você mesmo!

Regressão de Poisson

Exemplo

Módulo 3 | Aula 2
Modelos Estatísticos: lineares e não lineares