Curso Introdução à Análise de Dados para pesquisa no SUS | Mod 3

Módulo 3 | Aula 1
Inferência Estatística

Tópico 2

Intervalo de Confiança

Os estimadores apresentados até agora são estimadores pontuais, pois fornecem como estimativa um único valor numérico para o parâmetro populacional de interesse. Vimos que, por serem variáveis aleatórias, os estimadores possuem uma distribuição de probabilidade e por isso podemos apresentar uma estimativa mais informativa para o parâmetro de interesse que inclua uma medida de variabilidade. Esse método de estimação é chamado de intervalo de confiança, sendo obtido a partir da distribuição amostral de seus estimadores.

Intervalo de confiança para média populacional

Inicialmente vamos construir um intervalo de confiança para média μ de uma população Normal com variância conhecida σ². Seja X₁, X₂, ..., X_numa amostra de tamanho n, vimos pelo Teorema Central do Limite que a média amostral tem distribuição Normal com a mesma média μ e variância σ²/n. Assim,

Z = \frac{\bar{X} - μ}{σ / \sqrt{n}} \sim N (0, 1)

Podemos fixar um valor γ, tal que 0 < γ < 1, e construir um intervalo de confiança γ, tal que P(-z_γ/2 < Z < z_γ/2) = γ, em que z_γ/2 pode ser obtido a partir da distribuição Normal padrão.

Assim, o intervalo de confiança para μ, é dado por:

[\bar{X} - z_{γ / 2} \frac{σ}{\sqrt{n}}; \bar{X} + z_{γ / 2} \frac{σ}{\sqrt{n}}]

Usualmente, utilizamos γ=0,95 e obtemos z_γ/2=1,96. O quantil da distribuição Normal padrão pode ser obtido por meio de tabela ou de qualquer software estatístico. No software R, o comando é qnorm.

A interpretação do intervalo de confiança é a seguinte: se obtivermos várias amostras de mesmo tamanho, esperamos que a proporção de intervalos que contenham o valor de μ seja igual a γ. A figura a seguir ilustra a interpretação do intervalo de confiança de 95%. A linha horizontal representa a média populacional μ, 100 intervalos de confiança foram construídos e desses 95 contêm o verdadeiro valor μ (azul) e 5 não contêm (vermelho). Na figura a seguir observamos, em azul, os Intervalos de Confiança que contêm o verdadeiro valor da média e, em vermelho, os Intervalos de Confiança que não contêm.

Faça você mesmo!

É hora de praticar! No script modulo3aula1_atividades.R (Atividade 2), calcule intervalos de confiança para 500 amostras e visualize quantos deles contêm a média verdadeira. Você verá na prática que ~95% dos ICs de 95% capturam o parâmetro.

Na prática, raramente conhecemos o desvio-padrão populacional. Nesse caso, ele é estimado pelo desvio-padrão amostral s e o intervalo de confiança para média é dado por:

[\bar{X} - t_{\frac{γ}{2}, n - 1} \frac{s}{\sqrt{n}}; \bar{X} + t_{\frac{γ}{2}, n - 1} \frac{s}{\sqrt{n}}]

Em que t_γ/2,n-1 é o valor crítico da distribuição t de Student com n-1 graus de liberdade. A distribuição t de Student é simétrica e se aproxima da distribuição Normal quando o tamanho da amostra cresce.

Na Prática!

Suponha que o IMC da população do Rio de Janeiro tenha uma distribuição Normal com média μ desconhecida. Uma amostra aleatória de tamanho 500 da população foi sorteada e forneceu uma média 27,2 Kg/m² e desvio-padrão igual a 4 Kg/mm². Sabendo disso, vamos calcular o intervalo de confiança de 95%(IC95%) para média do IMC.

Como o desvio-padrão populacional é desconhecido, usaremos a distribuição t de Student. Como a amostra é grande, o valor crítico é igual ao da Normal, ou seja, t γ/2,n-1=1,96. Então, o IC95% para média do IMC é dado por:

[27,2 - 1,96 \frac{4}{\sqrt{500}}; 27,2 + 1,96 \frac{4}{\sqrt{500}}] = [26,85; 27,55]

Para saber mais sobre a distribuição t de Student assista a este vídeo.
Para saber mais sobre Intervalo de Confiança para média, assista a este este vídeo.

Intervalo de confiança para proporção populacional

A proporção é uma medida bastante utilizada em epidemiologia, uma vez que pode ser interpretada como prevalência ou incidência de uma doença. A proporção pode ser pensada como uma média e podemos utilizar o Teorema Central do Limite para a construção do intervalo de confiança, ou seja, para um tamanho de amostra grande, poderemos aproximá-la para a Normal. Assim:

[\hat{p} - z_{γ / 2} \sqrt{\frac{\hat{p} (1 - \hat{p})}{n}}; \hat{p} + z_{γ / 2} \sqrt{\frac{\hat{p} (1 - \hat{p})}{n}}]

Em que z_γ/2 é o valor crítico da distribuição da Normal padrão e $\hat{p}$ é a proporção amostral.

Voltando ao exemplo sobre o consumo regular de frutas, pretende-se estimar a proporção p de seu consumo regular. Em uma amostra aleatória representativa da população, observou-se que 475 das 750 pessoas selecionadas informaram ter um consumo regular de frutas. A proporção amostral obtida foi igual a 300/750=0,40. Calculando o intervalo de confiança de 99% para p: como γ=0,99, usamos a distribuição Normal padrão e obtemos z_γ/2=2,58.

[0,40 - 2,58 \sqrt{\frac{0,40 \times 0,60}{750}}; 0,40 + 2,58 \sqrt{\frac{0,40 \times 0,60}{750}}] = [0,35; 0,45]

Para saber mais sobre Intervalo de confiança para proporção, assista este vídeo.

Tópico Anterior Próximo tópico

Módulo 3 | Aula 1 Inferência Estatística