Módulo 3 | Aula 2
Modelos Estatísticos: lineares e não lineares
Introdução
Avaliar se existe relação entre duas características numéricas é uma das metas de muitos estudos em ciências da saúde. Esse tipo de relação é chamado de correlação e pode ser medido por meio do coeficiente de correlação linear. Para analisar essa associação entre duas variáveis, é selecionada uma amostra aleatória e as duas variáveis são observadas simultaneamente em cada indivíduo. Veja o exemplo a seguir.
Exemplo
Trinta pacientes são atendidos em uma clínica e os seguintes valores são registrados para pressão arterial sistólica (PAS) e idade. Uma maneira de descrever os dados conjuntamente é a partir do diagrama de dispersão apresentado na figura a seguir:
O diagrama de dispersão é a representação gráfica da relação entre duas variáveis numéricas. Cada ponto no gráfico representa uma observação (paciente), o eixo horizontal representa a idade e o eixo vertical a pressão arterial sistólica. Por meio do diagrama de dispersão é possível observar que, em geral, valores de idade mais altos são associados a valores de pressão sistólica mais altos, indicando uma relação entre elas. A partir do gráfico, podemos levantar algumas perguntas:
pan_tool_alt CliqueToque e arraste os cards para conhecê-los.
O diagrama de dispersão é útil para descrever a relação entre duas variáveis numéricas. Nesse caso, parece que existe uma relação linear positiva entre idade e PAS, ou seja, quanto maior a idade, maior a PAS. Outras relações podem ser observadas, como exemplificamos na figura a seguir.
As figuras A e B representam, respectivamente, correlações lineares negativa e positiva. A figura C, ausência de correlação, e as figuras C e D correlação não lineares.
Se existe uma relação linear entre duas variáveis, podemos medir a força e a direção dessa relação a partir do coeficiente de correlação de Pearson.
O coeficiente de correlação de Pearson é a medida mais comum de correlação linear e mede a intensidade de associação linear existente entre duas variáveis numéricas. O coeficiente de correlação de Pearson é denotado por r e pode ser calculado por meio da seguinte expressão:
O valor de r varia entre −1 e +1 com as seguintes interpretações:
- r=+1: Correlação linear perfeita positiva. Todos os pontos no diagrama de dispersão estão em uma linha reta ascendente.
- r=−1: Correlação linear perfeita negativa. Todos os pontos no diagrama de dispersão estão em uma linha reta descendente.
- r=0: Nenhuma correlação linear. Não há uma relação linear aparente entre as variáveis.
- 0 < r < 1: Correlação linear positiva. À medida que uma variável aumenta, a outra tende a aumentar.
- −1 < r < 0: Correlação linear negativa. À medida que uma variável aumenta, a outra tende a diminuir.
Lembrando que o coeficiente de correlação de Pearson só deve ser calculado quando a correlação é linear. Quando os pontos formam uma nuvem cujo eixo principal é uma curva, o valor de r não mede corretamente a associação entre as variáveis.
Para avaliar a significância do coeficiente de correlação, podemos testar as seguintes hipóteses:
H0: ρ = 0 (não há correlação linear).
H1: ρ ≠ 0 (há correlação linear).
Em que ρ é o coeficiente de correlação populacional. As suposições para realizar o teste de hipóteses são: as duas variáveis numéricas têm distribuição normal e a relação entre elas é linear. A seguinte estatística de teste é utilizada:
A região crítica e o p-valor são obtidos usando-se a tabela da distribuição t de Student com n-2 graus de liberdade. Rejeitamos H0se o p-valor obtido for menor do que o nível de significância estabelecido. A rejeição de H0 indica uma correlação linear estatisticamente significante.
Voltando ao exemplo da pressão sistólica e idade, se o coeficiente de correlação for igual a 0,66 e o p-valor < 0,001. Nesse caso, rejeitamos H0, isso significa que existe uma correlação linear positiva e significativa entre idade e pressão arterial sistólica. No R, podemos obter o coeficiente de correlação de Pearson e o respectivo p-valor utilizando o comando cor.test.
Faça você mesmo!
É hora de praticar! No script modulo3aula2_atividades.R (Atividade 1), calcule a correlação entre PA e idade, interprete a força e direção da relação, e visualize com gráfico de dispersão.
O coeficiente de correlação de Pearson é paramétrico no sentido de que assume distribuição normal para as duas variáveis. Se a suposição de normalidade for válida, ele deve ser preferido. Caso a suposição não seja válida, podemos utilizar o coeficiente de correlação de Spearman. Esse coeficiente de correlação é baseado nos postos das observações e, portanto, não paramétrico.
Lembrando que correlação não implica causalidade. Um valor de r elevado não indica necessariamente que uma variável causa mudança na outra. Pode haver outras variáveis não observadas que influenciam ambas.