Curso Introdução à Análise de Dados para pesquisa no SUS | Mod 3

Módulo 3 | Aula 2
Modelos Estatísticos: lineares e não lineares

Tópico 1

Introdução

Avaliar se existe relação entre duas características numéricas é uma das metas de muitos estudos em ciências da saúde. Esse tipo de relação é chamado de correlação e pode ser medido por meio do coeficiente de correlação linear. Para analisar essa associação entre duas variáveis, é selecionada uma amostra aleatória e as duas variáveis são observadas simultaneamente em cada indivíduo. Veja o exemplo a seguir.

Exemplo

Trinta pacientes são atendidos em uma clínica e os seguintes valores são registrados para pressão arterial sistólica (PAS) e idade. Uma maneira de descrever os dados conjuntamente é a partir do diagrama de dispersão apresentado na figura a seguir:

O diagrama de dispersão é a representação gráfica da relação entre duas variáveis numéricas. Cada ponto no gráfico representa uma observação (paciente), o eixo horizontal representa a idade e o eixo vertical a pressão arterial sistólica. Por meio do diagrama de dispersão é possível observar que, em geral, valores de idade mais altos são associados a valores de pressão sistólica mais altos, indicando uma relação entre elas. A partir do gráfico, podemos levantar algumas perguntas:

pan_tool_alt CliqueToque e arraste os cards para conhecê-los.

Pergunta 1

Qual é o tipo da relação entre as variáveis idade e PAS?

Pergunta 2

Qual é a força dessa relação?

Pergunta 3

A relação é estatisticamente significativa?

O diagrama de dispersão é útil para descrever a relação entre duas variáveis numéricas. Nesse caso, parece que existe uma relação linear positiva entre idade e PAS, ou seja, quanto maior a idade, maior a PAS. Outras relações podem ser observadas, como exemplificamos na figura a seguir.

As figuras A e B representam, respectivamente, correlações lineares negativa e positiva. A figura C, ausência de correlação, e as figuras C e D correlação não lineares.

Se existe uma relação linear entre duas variáveis, podemos medir a força e a direção dessa relação a partir do coeficiente de correlação de Pearson.

O coeficiente de correlação de Pearson é a medida mais comum de correlação linear e mede a intensidade de associação linear existente entre duas variáveis numéricas. O coeficiente de correlação de Pearson é denotado por r e pode ser calculado por meio da seguinte expressão:

r = \frac{\sum_{i = 1}^{n} (x_{i} - \bar{x}) (y_{i} - \bar{y})}{\sqrt{\sum_{i = 1}^{n} (x_{i} - \bar{x})^{2} \times \sum_{i = 1}^{n} (y_{i} - \bar{y})^{2}}}

O valor de r varia entre −1 e +1 com as seguintes interpretações:

r=+1: Correlação linear perfeita positiva. Todos os pontos no diagrama de dispersão estão em uma linha reta ascendente.
r=−1: Correlação linear perfeita negativa. Todos os pontos no diagrama de dispersão estão em uma linha reta descendente.
r=0: Nenhuma correlação linear. Não há uma relação linear aparente entre as variáveis.
0 < r < 1: Correlação linear positiva. À medida que uma variável aumenta, a outra tende a aumentar.
−1 < r < 0: Correlação linear negativa. À medida que uma variável aumenta, a outra tende a diminuir.

Lembrando que o coeficiente de correlação de Pearson só deve ser calculado quando a correlação é linear. Quando os pontos formam uma nuvem cujo eixo principal é uma curva, o valor de r não mede corretamente a associação entre as variáveis.

Para avaliar a significância do coeficiente de correlação, podemos testar as seguintes hipóteses:

H₀: ρ = 0 (não há correlação linear).

H₁: ρ ≠ 0 (há correlação linear).

Em que ρ é o coeficiente de correlação populacional. As suposições para realizar o teste de hipóteses são: as duas variáveis numéricas têm distribuição normal e a relação entre elas é linear. A seguinte estatística de teste é utilizada:

t = \frac{r}{\sqrt{\frac{1 - r^{2}}{n - 2}}}

A região crítica e o p-valor são obtidos usando-se a tabela da distribuição t de Student com n-2 graus de liberdade. Rejeitamos H₀se o p-valor obtido for menor do que o nível de significância estabelecido. A rejeição de H₀ indica uma correlação linear estatisticamente significante.

Voltando ao exemplo da pressão sistólica e idade, se o coeficiente de correlação for igual a 0,66 e o p-valor < 0,001. Nesse caso, rejeitamos H0, isso significa que existe uma correlação linear positiva e significativa entre idade e pressão arterial sistólica. No R, podemos obter o coeficiente de correlação de Pearson e o respectivo p-valor utilizando o comando cor.test.

Faça você mesmo!

É hora de praticar! No script modulo3aula2_atividades.R (Atividade 1), calcule a correlação entre PA e idade, interprete a força e direção da relação, e visualize com gráfico de dispersão.

O coeficiente de correlação de Pearson é paramétrico no sentido de que assume distribuição normal para as duas variáveis. Se a suposição de normalidade for válida, ele deve ser preferido. Caso a suposição não seja válida, podemos utilizar o coeficiente de correlação de Spearman. Esse coeficiente de correlação é baseado nos postos das observações e, portanto, não paramétrico.

Lembrando que correlação não implica causalidade. Um valor de r elevado não indica necessariamente que uma variável causa mudança na outra. Pode haver outras variáveis não observadas que influenciam ambas.

Próximo tópico

Módulo 3 | Aula 2 Modelos Estatísticos: lineares e não lineares

Introdução

Exemplo

Faça você mesmo!

Módulo 3 | Aula 2
Modelos Estatísticos: lineares e não lineares