read_more
Campus Virtual Fiocruz

Introdução à Análise de Dados para pesquisa no SUS

Módulo 3 | Aula 1
Inferência Estatística

Tópico 2

Intervalo de Confiança

Os estimadores apresentados até agora são estimadores pontuais, pois fornecem como estimativa um único valor numérico para o parâmetro populacional de interesse. Vimos que, por serem variáveis aleatórias, os estimadores possuem uma distribuição de probabilidade e por isso podemos apresentar uma estimativa mais informativa para o parâmetro de interesse que inclua uma medida de variabilidade. Esse método de estimação é chamado de intervalo de confiança, sendo obtido a partir da distribuição amostral de seus estimadores.

Intervalo de confiança para média populacional

Inicialmente vamos construir um intervalo de confiança para média μ de uma população Normal com variância conhecida σ2. Seja X1, X2, ..., Xnuma amostra de tamanho n, vimos pelo Teorema Central do Limite que a média amostral tem distribuição Normal com a mesma média μ e variância σ2/n. Assim,

Z = X ¯ - μ σ / n N ( 0 , 1 )

Podemos fixar um valor γ, tal que 0 < γ < 1, e construir um intervalo de confiança γ, tal que P(-zγ/2 < Z < zγ/2) = γ, em que zγ/2 pode ser obtido a partir da distribuição Normal padrão.

Assim, o intervalo de confiança para μ, é dado por:

[ X ¯ z γ / 2 σ n ; X ¯ + z γ / 2 σ n ]

Usualmente, utilizamos γ=0,95 e obtemos zγ/2=1,96. O quantil da distribuição Normal padrão pode ser obtido por meio de tabela ou de qualquer software estatístico. No software R, o comando é qnorm.

A interpretação do intervalo de confiança é a seguinte: se obtivermos várias amostras de mesmo tamanho, esperamos que a proporção de intervalos que contenham o valor de μ seja igual a γ. A figura a seguir ilustra a interpretação do intervalo de confiança de 95%. A linha horizontal representa a média populacional μ, 100 intervalos de confiança foram construídos e desses 95 contêm o verdadeiro valor μ (azul) e 5 não contêm (vermelho). Na figura a seguir observamos, em azul, os Intervalos de Confiança que contêm o verdadeiro valor da média e, em vermelho, os Intervalos de Confiança que não contêm.

Faça você mesmo!

É hora de praticar! No script modulo3aula1_atividades.R (Atividade 2), calcule intervalos de confiança para 500 amostras e visualize quantos deles contêm a média verdadeira. Você verá na prática que ~95% dos ICs de 95% capturam o parâmetro.

Na prática, raramente conhecemos o desvio-padrão populacional. Nesse caso, ele é estimado pelo desvio-padrão amostral s e o intervalo de confiança para média é dado por:

[ X ¯ t γ 2 , n 1 s n ; X ¯ + t γ 2 , n 1 s n ]

Em que tγ/2,n-1 é o valor crítico da distribuição t de Student com n-1 graus de liberdade. A distribuição t de Student é simétrica e se aproxima da distribuição Normal quando o tamanho da amostra cresce.

Na Prática!

Suponha que o IMC da população do Rio de Janeiro tenha uma distribuição Normal com média μ desconhecida. Uma amostra aleatória de tamanho 500 da população foi sorteada e forneceu uma média 27,2 Kg/m2 e desvio-padrão igual a 4 Kg/mm2. Sabendo disso, vamos calcular o intervalo de confiança de 95%(IC95%) para média do IMC.

Como o desvio-padrão populacional é desconhecido, usaremos a distribuição t de Student. Como a amostra é grande, o valor crítico é igual ao da Normal, ou seja, t γ/2,n-1=1,96. Então, o IC95% para média do IMC é dado por:

[ 27,2 1,96 4 500 ; 27,2 + 1,96 4 500 ] = [ 26,85 ; 27,55 ]

Intervalo de confiança para proporção populacional

A proporção é uma medida bastante utilizada em epidemiologia, uma vez que pode ser interpretada como prevalência ou incidência de uma doença. A proporção pode ser pensada como uma média e podemos utilizar o Teorema Central do Limite para a construção do intervalo de confiança, ou seja, para um tamanho de amostra grande, poderemos aproximá-la para a Normal. Assim:

[ p ^ - z γ / 2 p ^ ( 1 - p ^ ) n ; p ^ + z γ / 2 p ^ ( 1 - p ^ ) n ]

Em que zγ/2 é o valor crítico da distribuição da Normal padrão e p ^ é a proporção amostral.

Voltando ao exemplo sobre o consumo regular de frutas, pretende-se estimar a proporção p de seu consumo regular. Em uma amostra aleatória representativa da população, observou-se que 475 das 750 pessoas selecionadas informaram ter um consumo regular de frutas. A proporção amostral obtida foi igual a 300/750=0,40. Calculando o intervalo de confiança de 99% para p: como γ=0,99, usamos a distribuição Normal padrão e obtemos zγ/2=2,58.

[ 0,40 - 2,58 0,40 × 0,60 750 ; 0,40 + 2,58 0,40 × 0,60 750 ] = [ 0,35 ; 0,45 ]