read_more
Campus Virtual Fiocruz

Introdução à Análise de Dados para pesquisa no SUS

Módulo 3 | Aula 1
Inferência Estatística

Tópico 1

Introdução

A inferência estatística é um conjunto de técnicas que tem como objetivo estudar a população a partir de informações obtidas por uma amostra, ou seja, estamos interessados em fazer inferência para a população a partir de uma amostra. A figura a seguir ilustra o conceito de inferência estatística.

Para exemplificar o conceito, considere que estamos interessados em estudar a prevalência (proporção) de hipertensão arterial em adultos no município do Rio de Janeiro. Para tanto, selecionamos uma amostra de adultos moradores do município e perguntamos se eles têm ou não esse diagnóstico. Em seguida, calculamos a prevalência de hipertensão arterial da amostra. O objetivo é generalizar o resultado obtido na amostra para a população.

Algumas questões que surgem são:

pan_tool_alt CliqueToque e arraste os cards para conhecê-los.

Questão 1

De que forma podemos selecionar essa amostra?

Questão 2

Amostras diferentes utilizando o mesmo procedimento conterão as mesmas informações?

Questão 3

Será que os resultados dessa amostra podem ser generalizados para a população de interesse?

Ao longo desta aula vamos refletir sobre essas questões e como podemos chegar ao resultado de uma amostragem.

Então, vamos iniciar pensando de que forma podemos selecionar essa amostra? As técnicas de amostragem podem ser classificadas em probabilística e não probabilística.

A amostra probabilística se subdivide em:

  • Amostragem aleatória simples.
  • Amostragem aleatória estratificada.
  • Amostragem aleatória por conglomerado.
  • Amostragem aleatória sistemática.

Exemplos de amostragem não probabilística incluem amostragem por conveniência, amostragem em bola de neve, amostragem intencional etc. O cálculo do tamanho da amostra depende da técnica de amostragem escolhida. Essas técnicas não são objetos desta aula.

Para saber mais, acesse este site.

Para responder à segunda pergunta, se amostras diferentes utilizando o mesmo procedimento conterão as mesmas informações, devemos considerar o seguinte: selecionamos 10 amostras probabilísticas de mesmo tamanho e, para cada amostra, podemos calcular a proporção de adultos com hipertensão arterial. Parece intuitivo assumir que os resultados serão diferentes, uma vez que cada amostra será composta por pessoas diferentes. Assim, cada uma delas terá uma prevalência de hipertensão arterial diferente. Podemos dizer que, devido à natureza aleatória envolvida no procedimento de amostragem, não podemos garantir que as amostras forneçam os mesmos resultados. Apesar de diferentes, podemos ter resultados próximos ou iguais nas diversas amostras.

A tabela a seguir apresenta a prevalência de hipertensão arterial (HA) em 10 amostras de tamanho n=1000. Para que a generalização do resultado obtido a partir da amostra seja válida para a população, a amostra precisa ser representativa, ou seja, precisa representar bem a população de interesse.

Amostra 1 2 3 4 5 6 7 8 9 10
Prevalência de HA 0,35 0,39 0,34 0,40 0,35 0,31 0,38 0,36 0,39 0,37

Antes de avançarmos, vamos definir alguns conceitos importantes:

  • Parâmetros são quantidades desconhecidas da população sobre as quais temos interesse, usualmente representadas por letras gregas tais como μ, σ, θ, entre outras.
  • Estimador é a combinação de elementos da amostra, construída com a finalidade de representar, ou estimar, um parâmetro de interesse na população.
  • Estimativa é o valor numérico obtido pelo estimador em uma certa amostra.

Agora, vamos analisar os dois exemplos a seguir:

Fonte: Freepik

A obesidade é um importante fator de risco para diversos desfechos em saúde. Estamos interessados na média do Índice de Massa Corporal (IMC) de adultos de 18 a 59 anos, moradores do município do Rio de Janeiro. Uma amostra aleatória da população da cidade será selecionada e perguntamos o peso e a altura delas. Em seguida, vamos calcular o IMC, que é dado pela razão entre peso e altura ao quadrado. Nesse caso, temos o parâmetro de interesse, que é a média da população do Rio de Janeiro com idade entre 18 e 59 anos. O parâmetro de interesse é o IMC médio, representado por μ. Após a obtenção dos dados da amostra, precisamos definir o estimador que vai representar o parâmetro de interesse. Nesse caso, é intuitivo pensar que a média amostral é um estimador razoável para a média populacional. Finalmente, a estimativa será o valor numérico da média da amostra selecionada. Por exemplo, 25,7Kg/m2.

Fonte: Freepik

O consumo regular de frutas é um marcador de alimentação saudável. Suponha que estamos interessados em conhecer a proporção de adultos na população brasileira que consome frutas regularmente. Considere que o consumo regular de frutas é definido pelo consumo diário de três ou mais porções de fruta. A população de interesse é formada por adultos brasileiros. Uma amostra aleatória da população brasileira será selecionada e elas vão responder se consomem frutas regularmente. O parâmetro de interesse é a proporção de consumo regular de frutas, representado por p. Nesse caso, é intuitivo considerar como estimador a proporção amostral de consumo regular de frutas, e a estimativa o valor numérico da proporção em uma dada amostra. Por exemplo, p=0,48.

No primeiro exemplo apresentado, a variável de interesse é uma variável numérica, IMC, e, no segundo exemplo, a variável de interesse é categórica, consumo regular de frutas (sim/não). Os estimadores escolhidos para representar o parâmetro populacional de interesse foram, respectivamente, média e proporção. Os estimadores, além de serem intuitivos, têm boas propriedades estatísticas, ambos são não viciados e consistentes. Um estimador é dito não viciado se o seu valor esperado coincide com o parâmetro de interesse, e consistente se à medida que o tamanho da amostra aumenta, além de não viciado, a variância tende a zero.

A figura a seguir exemplifica as propriedades de um estimador.

Suponha que a média populacional de IMC da população adulta do Rio de Janeiro seja conhecida e igual a μ =26Kg/m2. Ao selecionarmos uma amostra de tamanho n=100 dessa população, obtemos uma média amostral igual a 26,4Kg/m2. Já vimos que, se selecionarmos outra amostra de mesmo tamanho, podemos obter um resultado diferente. Isso significa que a cada vez que uma amostra é selecionada, teremos outros valores, ou seja, existe variabilidade entre as estimativas de diferentes amostras. Por consequência, essas estimativas também têm uma incerteza associada, que pode ser medida pelo desvio-padrão, que ganha um nome especial de “erro padrão”. A figura a seguir ilustra a distribuição das 500 médias de tamanho 100 obtidas (a). A média das médias obtida foi igual a 25,99 e o desvio-padrão das médias (erro padrão) igual a 0,19. Se aumentarmos o tamanho da amostra para n=1000, obteremos uma média igual a 26 e erro padrão igual a 0,05 (b). Esse resultado indica que a média amostral é um estimador não viciado e consistente. O histograma apresenta a distribuição amostral da médi, e, em alguns casos, é possível conhecer a distribuição de probabilidade teórica desse estimador. No caso da média, essa distribuição de probabilidades é conhecida analiticamente.

O processo de inferência para a população (parâmetro) pode ser realizado a partir de uma amostra utilizando-se uma estimação pontual, intervalar ou teste de hipóteses. Uma estimativa pontual é um valor único calculado a partir de dados amostrais que tentam estimar um parâmetro desconhecido da população. Uma estimativa intervalar é um intervalo de valores calculado a partir de dados amostrais, que fornece uma faixa dentro da qual se espera que o parâmetro populacional verdadeiro, média ou proporção, esteja com um determinado nível de confiança. Para o cálculo do intervalo de confiança e construção de teste de hipótese, utilizamos um importante teorema da inferência estatística, o Teorema Central do Limite.

Sejam X1, X2, ..., Xn variáveis aleatórias independentes e identicamente distribuídas com média μ e variância σ2. Para uma amostra suficientemente grande, a média amostral tende a seguir uma distribuição Normal, independentemente da distribuição original da variável com média μ e variância dada por σ2/n. Então, podemos ter uma variável original com distribuição muito diferente da normal, mas, se tomarmos várias amostras grandes dessa distribuição e então fizermos um histograma das médias amostrais, a forma se parecerá com uma curva Normal. A aproximação para a Normal melhora à medida que o tamanho amostral cresce.

A figura a seguir apresenta o histograma de uma distribuição populacional assimétrica à direita e o histograma das médias amostrais para amostras de tamanho n=5, 30 e 100 selecionadas dessa população. Observamos que, independentemente da forma da distribuição da população, a distribuição amostral da média se aproxima da distribuição normal à medida que o tamanho da amostra cresce.

Faça você mesmo!

É hora de praticar! No script modulo3aula1_atividades.R (Atividade 1), simule o Teorema Central do Limite gerando 500 amostras e observe como as médias amostrais se distribuem normalmente, independente da distribuição original.