read_more
Campus Virtual Fiocruz

Introdução à Análise de Dados para pesquisa no SUS

Módulo 2 | Aula 1
Análise exploratória e descritiva

Tópico 4

Medidas de dispersão

Considere as duas amostras do mesmo indivíduo apresentadas na figura a seguir, obtidas usando-se diferentes técnicas de medição. Elas têm a mesma média aritmética (200mg/dl), entretanto aparentam uma dispersão em torno da média diferente. A diferença entre as duas amostras está na variabilidade do método de medição.

Estudaremos agora diferentes estatísticas usadas para quantificar essa noção de variabilidade.

Duas amostras de medidas de colesterol usando-se os métodos AutoAnalyzer e Microenzimatic.

Amplitude

É a medida de variabilidade mais simples, definida pela distância entre o maior e o menor valor da amostra. Exemplo: no caso dos recém-nascidos da tabela, é dada por 2077g (4146g-2069g). Vamos pensar juntos sobre outra possibilidade de estatística para medir a dispersão dos dados.

A principal diferença entre os métodos AutoAnalyzer e Microenzimatic é a concentração dos dados ao redor do centro no segundo método. Se definirmos o centro da amostra no segundo método como sendo a média aritmética, então uma medida que poderia resumir a diferença (ou os desvios) entre os pontos individuais e a média aritmética deveria conter os termos: ( x 1 - x ) , ( x 2 - x ) , ... , ( x n - x )

Sem pensar muito, uma medida simples que poderia atingir esse objetivo seria a média desses desvios: i = 1 n ( x i - x ¯ ) n .

Infelizmente, apesar de intuitiva, essa medida não funciona, já que, por definição, a média é construída de tal forma que a soma dos desvios das observações individuais de uma amostra em relação à média aritmética é sempre zero.

Como exercício, sugiro que você cheque essa afirmação. Vou deixar os passos indicados a seguir para ajudá-lo a chegar a essa conclusão, com base na série de colesterol aferida pelo método AutoAnalyzer:

i = 1 n ( x i x ¯ ) n = ( x 1 x ¯ ) + ( x 2 x ¯ ) + + ( x n x ¯ ) n =
( 177 200 ) + ( 193 200 ) + + ( 226 200 ) 5 = 0

Assim, uma alternativa é tomar o quadrado dos desvios. Dado que o quadrado de qualquer número é um número positivo, a média dos desvios ao quadrado não resultará em zero.

Variância

A estatística mais utilizada para medir o espalhamento dos dados em torno de um centro é a variância. A variância amostral é definida como a médias dos desvios ao quadrado, dividida por (n-1):

s 2 = i = 1 n ( x i x ¯ ) 2 n 1

Voltando ao exemplo das duas medições de colesterol, as variâncias seriam, então:

Método AutoAnalyzer:

s 2 = i = 1 n ( x i x ¯ ) 2 n 1 = ( 177 200 ) 2 + ( 193 200 ) 2 + + ( 226 200 ) 2 4 = 340 mg / dL 2

Método Microenzimatic:

s 2 = i = 1 n ( x i x ¯ ) 2 n 1 = ( 192 200 ) 2 + ( 197 200 ) 2 + + ( 209 200 ) 2 4 = 39,5 mg / dL 2

Observe, entretanto, que a unidade da variância é o quadrado da unidade dos dados. No nosso exemplo o colesterol é medido em mg/dL — todas as medidas de locação são medidas em mg/dL e a variância em (mg/dL)2.

Desvio-padrão

Uma forma muito natural de “resolver” a questão de escala da variância e tornar a estatística de dispersão uma medida na mesma escala dos dados é tomando a raiz quadrada da variância. Essa “nova” estatística se chama desvio-padrão. Dessa forma, o desvio-padrão pode ser interpretado como “o quanto, em média, os dados se desviam da média”.

O desvio-padrão amostral é definido como:

s = s 2 = i = 1 n ( x i x ¯ ) 2 n 1

Para nosso exemplo de medições de colesterol, os desvios-padrão são:

AutoAnalyzer:

s = s 2 = 340 = 18,44 mg / dL

Microenzimatic:

s = s 2 = 39,5 = 6,28 mg / dL

Coeficiente de variação

Nesse ponto, você já entendeu que a escala dos dados importa. Uma outra questão interessante a se pensar é na diferença de um desvio-padrão de 10u (unidades) em uma amostra cuja média aritmética é 10u e outra cuja média aritmética é 100u. A interpretação da concentração desses dados é completamente diferente. Enquanto na série em que x ¯ = 10 u , em média os dados variam também em 10u, na série x ¯ = 100 u , os dados variam apenas em 10u.

Dessa forma, uma estatística que relacione o desvio-padrão com a média traz uma interpretação importante sobre o quanto da média temos em desvio-padrão. Essa estatística se chama coeficiente de variação, e é definida matematicamente como sendo:

CV = s x ¯

Note que o coeficiente de variação não tem unidade de medida, já que ambos (s e x ¯ ) têm a mesma unidade.

No nosso exemplo de colesterol, os coeficientes de variação para ambos os métodos são:

AutoAnalyzer:

CV = s x ¯ = 18,44 200 = 0,0922 = 9,22 %

Microenzimatic:

CV = s x ¯ = 6,28 200 = 0,0314 = 3,14 %

Olhando essa estatística a conclusão é muito mais direta: enquanto no método AutoAnalyzer o desvio-padrão representa 9,22% da média, no método Microenzimatic os dados estão bem mais concentrados, com o desvio-padrão sendo 3,14% da média.

Intervalo Interquartil

Uma medida mais robusta para dispersão é o intervalo interquartil, uma medida menos sensível a extremos ou outliers de amplitude, uma vez que utiliza o primeiro e terceiro quartil em vez do máximo e mínimo usados no cálculo da amplitude. Matematicamente é definida como:

IQ = Q3 - Q1

Em que Q1 é o valor até o qual temos 25% dos dados e Q3 o valor até o qual temos 75% da amostra.

No nosso exemplo do colesterol essa estatística seria calculada como:

Para o método AutoAnalyzer:

Q1: Já que (n*p)/100 não é inteiro (n=5 p=25, logo n*p/100=1,25), P25 (ou Q1) será a (k+1)-ésima maior observação, em que k é o maior inteiro menor do que (n*p)/100. Como (n*p)/100=1,25, o maior inteiro menor do que 1,25 é um, e (K+1)=2. Logo P25= 2ª observação= 193mg/dL.

Q3: Já que (n*p)/100 não é inteiro (n=5 p=75, logo n*p/100=3,75), P75 (ou Q3) será a (k+1)-ésima maior observação, em que k é o maior inteiro menor do que (n*p)/100. Como (n*p)/100=3,75, o maior inteiro menor do que 3,75 é 3, e (K+1)=4. Logo, P75= 4ª observação= 209mg/dL.

Logo, IQ=Q3-Q1=209-193=16 mg⁄dL

Para o método Microenzimatic:

Note que, como ambas as amostras (AutoAnalyzer e Microenzimatic) têm o mesmo tamanho, Q1 continuará sendo a 2ª observação (que agora assume o valor 197mg/dL) e Q3 a 4ª observação da amostra (que agora é 202mg/dL).

Logo, IQ=Q3-Q1=202-197=5 mg⁄dL

Faça você mesmo!

Compare a dispersão entre grupos no R! No script modulo2aula1_atividades.R (Atividade 3), você irá calcular variância, desvio-padrão e coeficiente de variação para comparar dois métodos de medição de colesterol usando as funções var(), sd() e group_by().