Módulo 3 | Aula 4
Aplicação dos modelos estatísticos
Modelos estatísticos
Um modelo estatístico — que é uma representação matemática — busca descrever e quantificar a relação, dependência ou associação entre variáveis de acordo com um conjunto específico de pressupostos. Modelos comuns incluem a Regressão Linear, ideal para desfecho contínuo, a Análise de Variância (ANOVA), usada para comparar médias entre múltiplos grupos, e a Regressão Logística, aplicada em desfecho dicotômico (binário). A escolha do modelo dependerá da natureza do dado e da questão da pesquisa.
Um simples exemplo é a fórmula do modelo:
Vamos entender melhor: se essa fórmula traz à lembrança a equação da reta em geometria (y = m*x + n) (2), você está no caminho certo. Podemos fazer paralelos com as duas equações (1) e (2); o termo n da equação da reta (coeficiente linear), indica onde a reta cruza o eixo y quando x é 0, esse termo seria equivalente ao termo β_0 do modelo estatístico que pode ser interpretado como a quantidade basal. O termo m da equação da reta (coeficiente angular) indica o quão inclinada é a reta, e no nosso modelo esse termo seria o β_1, que indica o quanto de mudança será adicionado por mudança no X.
Porém, há uma diferença marcante nas duas equações, que é um termo adicional na equação (1), o E (de erro); esse termo indica que nosso modelo é um modelo probabilístico, isto é, existe um erro associado no cálculo do valor de Y, enquanto na equação (2) não há esse erro adicional.
Formalmente, podemos definir que um modelo estatístico é um conjunto de observações (espaço amostral) e um conjunto de distribuições probabilísticas referente a esse espaço amostral.
Usando a equação (1), vista no exemplo anterior, também é possível ver os componentes do modelo estatístico. Veja:
O “Y” é a variável dependente (ou desfecho), enquanto o “X” é a variável independente (ou preditora). Vamos utilizar um exemplo para clarificar esses conceitos.
Em 1886, o polímata Francis Galton estudou a altura dos componentes de diversas famílias (pai, mãe e filhos). Nesse conjunto de dados, ele registrou o sexo e a ordem de nascimento dos filhos da família e as alturas de cada membro. Nós podemos utilizar essas informações para montar uma equação parecida com a (1) e avaliar se há diferença na altura da criança segundo a altura média dos pais. Veja a seguir.
Essa equação pode ser traduzida pela figura a seguir, descrita pela equação: Y = 22,6 + 0,6 *Altura média dos pais + E (4).
Esse modelo estatístico é chamado de regressão linear. Os valores 22,6 (β_0 ) e 0,6 (β_1 ) da equação foram obtidos a partir do método dos mínimos quadrados. Esse método tenta encontrar a reta que tem a menor soma das distâncias de cada ponto em relação à reta. Na realidade, é o mínimo da soma dos quadrados das distâncias e por isso o nome: método dos mínimos quadrados.
Com esse exemplo também podemos ver a equivalência entre as equações (1) e (2).
Na figura ao lado, podemos ver onde a reta cruza o eixo y quando x é 0 é no valor de 22, nosso β0 descrito na equação (4). Além disso, nas duas figuras é possível ver uma região cinza ao redor da reta azul, que indica o erro associado em cada um dos nossos cálculos.