read_more
Campus Virtual Fiocruz

Introdução à Análise de Dados para pesquisa no SUS

Módulo 2 | Aula 1
Análise exploratória e descritiva

Tópico 2

Variável aleatória

Em estatística se usa muito o termo “variável aleatória”, que a princípio parece algo complicado, mas que, na verdade, é apenas uma representação de uma das características de interesse em determinado estudo. Por exemplo, em um estudo sobre morbidade em determinada cidade, além da variável doença, outras como época do ano, faixa etária, consumo de cigarro, são potencialmente importantes para análise do fenômeno. Uma variável aleatória é uma medição de determinado tópico, do qual se obtém valores não antecipadas. É claro que, ao medir consumo de cigarro, sabemos antecipadamente que nunca obteremos uma medição negativa, contudo também não conseguimos saber antecipadamente o valor de consumo para cada indivíduo. Esse conceito é essencial em estatística, pois destaca a incerteza dos fenômenos observados.

As variáveis aleatórias são classificadas segundo os valores que elas assumem em duas formas principais:

  • Nominal: quando descrevem atributos não ordenáveis, que, no exemplo anterior, seria doenças (como “câncer”, “hiv”, “hepatite” etc.) ou época do ano (“verão”, “primavera”, “outono”, “inverno”).
  • Ordinal: quando descrevem qualidades ordenáveis como faixa etária (“<18 anos”, “18 até 25 anos” etc.) ou tempo de consumo (“<1 ano”, “1 até 3 anos” etc.”).
  • Discreta: valores inteiros, como idade (18, 19, 20 anos).
  • Contínua: valores fracionados, como altura (exemplo: 1,8 metros) e peso (exemplo: 67,8 quilos).

Vale ressaltar que uma variável quantitativa coletada originalmente como contínua por ser reestruturada para discreta ou mesmo para qualitativa ordinal, depende do interesse do analista e do assunto de investigação. Como exemplo, podemos citar o peso, quando valores incialmente coletados como 59,7 quilos (quantitativa contínua) por exemplo, podem virar 60 quilos se arredondado por um desinteresse em um maior detalhamento, ou mesmo virar “<60 quilos” (qualitativa ordinal).

O rigor em se entender a natureza da variável que se está trabalhando é imprescindível para a escolha correta de modelos que ajudem na análise do seu assunto de investigação. Existem modelos específicos para variáveis qualitativas (nominais e ordinais, e quantitativas (discreta ou contínua).

Faça você mesmo!

Pratique a classificação de variáveis no R! No script modulo2aula1_atividades.R (Atividade 1), você irá criar um dataset e transformar uma variável quantitativa contínua (peso) em uma variável qualitativa ordinal (faixas de peso) usando as funções mutate() e case_when().

Levantamento estatístico

O trabalho estatístico abrange atividades de coleta de dados, cálculo de medidas estatísticas e análise de dados, sendo essas etapas geralmente denominados de “levantamento” estatístico. Tal trabalho pode ser classificado quanto à:

  • Total: todos os elementos/indivíduos de estudo entram na pesquisa. Exemplo: uma pesquisa com todos os alunos de uma determinada escola.
  • Parcial: apenas uma parte (amostra) dos elementos/indivíduos, de preferência representativa, é incluída no estudo. Exemplo: Pesquisa Nacional por Amostras de domicílios (PNAD).
  • Primários: coletados diretamente do ambiente de estudo pelo interessado. Exemplo: pesquisas de campo.
  • Secundários: coletados (muitas vezes com alguma periodicidade, como a cada 2, 3, ou 5 anos) por outros indivíduos/instituições. Exemplo: censo escolar.

Amostragem

A amostragem é muito usada em levantamentos estatísticos por viabilizar estudos devido ao seu potencial de redução de custos, redução de tempo e pelo fato de possibilitar a realização de pesquisas originalmente “destrutivas” ou de “alto risco”. Aqui podemos pensar, por exemplo, em fábricas de alimentos que usam uma amostra para controle de qualidade, ou mesmo em exames de sangue.

As amostragens podem ser conduzidas de diferentes formas.

Amostragem aleatória simples (AAS)

Considerada o padrão ouro na estatística, ela tem uma relação direta com os elementos/indivíduos da população. Os elementos devem estar todos enumerados para ser possível a seleção, geralmente realizada por sorteio usando-se um software de geração de números aleatórios. Observem que, para tal, é necessário ter conhecimento a priori de todos os indivíduos dessa população para que, então, possamos enumerá-los e selecioná-los, e esse em geral é o principal empecilho para se usar essa abordagem. Exemplo: amostragem de funcionários em um hospital, utilizando-se o número de matrícula para seleção.

Amostragem sistemática (AS)

Seleção aleatória apenas do primeiro elemento de uma amostra ordenada e, em seguida, seleciona-se um a cada k elementos. Exemplo: uma a cada quatro residências respondem a um questionário completo durante o recenseamento da população.

Amostragem Estratificada (AE)

Nesse caso, necessita-se de uma informação prévia sobre a população (variável estratificadora). Consiste na divisão da população em subgrupos (chamados estratos) segundo alguma(s) característica(s) conhecida(s) (e mutuamente exclusivas) da população em estudo. De cada um desses estratos são selecionadas amostras em proporções convenientes. Exemplo: amostragem de trabalhadores de um hospital por sexo.

Amostragem por Conglomerados (AC)

É dada pela seleção AAS de conjuntos que contêm vários dos elementos que se quer estudar. Diferentemente da amostragem estratificada, na qual elementos de um mesmo subgrupo têm uma variável (estratificadora) em comum (sexo dos trabalhadores de um hospital), espera-se que um conglomerado seja uma microrrepresentação do universo sem nenhuma característica de estudo (a priori) em comum. Exemplo: no estudo sobre o perfil dos pacientes de hospitais públicos da Zona Oeste do Rio de Janeiro, um hospital dessa região pode definir um conglomerado.

Agora que já entendemos conceitos importantes na estatística, vamos entender um pouco da nomenclatura matemática comumente usada.

Considere a tabela a seguir:

Indivíduo Peso (Kg) Altura (m)
1 87.9 1.82
2 74.7 1.70
... ... ...
N 56.9 1.58

Se Denotamos por X a variável “peso”, então Xi representará o peso do indivíduo i (1,2,...,N). Analogamente, se Y representa a variável “altura, então Y2 é a altura do segundo indivíduo (1.70m). Dessa forma, a soma dos pesos dos 10 primeiros indivíduos dessa lista é denotada por:

i=1 10 Xi = X1 + X2 + + X10