Módulo 2 | Aula 1
Análise exploratória e descritiva
Métodos gráficos
Assim como as estatísticas tentam resumir as informações dos dados, em geral com volume cuja inspeção visual não consegue extrair nenhuma informação relevante, os gráficos são representações dos dados de forma a tornar sua compreensão mais acessível. Porém, diferentemente das estatísticas vistas até agora, quando resumimos em um número uma característica dos dados, nos gráficos geralmente utilizamos todos os dados para gerar uma ilustração. Nesta seção apresentaremos os principais gráficos utilizados a depender do tipo de dados e objetivo da apresentação.
Gráfico de barras
Um dos gráficos mais utilizados para apresentar dados categóricos é o gráfico de barras. As barras podem ser em vertical ou horizontal, mas, em ambos os casos, elas apresentam a frequência de cada grupo, preferencialmente relativa (em percentual), mas podendo também dispor dos dados em frequência absoluta (número absoluto de ocorrências).
Os dados originalmente já foram coletados e agrupados, ou o agrupamento pode acontecer de acordo com a pergunta de pesquisa do analista. Adiante segue um exemplo de gráfico de barras com o percentual de respondentes do British Household Panel Survey quanto ao seu estado de saúde.
Uma questão importante a se levar em conta no gráfico de barras relaciona-se à cor. Se o analista não tem intenção de destacar algum agrupamento das barras, não é recomendado adotar cores diferentes para cada uma delas.
Estado de saúde declarado por participantes do British Household Panel Survey (BHPS) no período 1999–2009
Uma variação do gráfico de barras aplicado a dados quantitativos é o histograma. Nele, as categorias são calculadas agrupando-se números consecutivos em uma mesma categoria. Para mais sobre esse assunto ver:
Gráfico de linha
Esse gráfico é ideal para monitoramento no tempo de determinada variável ou, em outras palavras, de uma série temporal. O objetivo desse tipo de gráfico é auxiliar na avaliação de tendências ou mudanças ao longo do tempo. Vale ressaltar que comparações de 2, 3 ou 4 pontos de tempo podem ser mais bem ilustradas em gráficos de barras. No exemplo adiante o gráfico de série temporal ilustra uma sazonalidade de influenza B entre 2005 e 2009.
Casos confirmados laboratorialmente para Influenza B por semana, em Kamalapur, 2005-2008
Box plot
Esse gráfico é muito utilizado para ilustrar a distribuição dos dados. Utilizam-se estatísticas de locação importantes, como mediana e 1º e 3º quartis, para descrever a assimetria da distribuição dos dados.
Na leitura desse gráfico geralmente comparamos as distâncias entre as estatísticas de locação que delimitam a caixa (box). Se os dados apresentam distribuição simétrica, então esperamos que Q1 e Q3 tenham distancias similares com relação à mediana. Se isso não acontecer, e Q3 é mais distante do que a mediana do que Q1, então inferimos que a distribuição é positivamente assimétrica. Já se Q1 é mais distante do que a mediana do que Q3, então dizemos que a distribuição é negativamente assimétrica.
Além dessa análise para o caso em que estamos investigando apenas uma variável, podemos estratificá-la de acordo com uma segunda variável categórica, como no gráfico a seguir, e comparar as estatísticas de locação entre categorias dessa segunda variável. Na figura adiante foram usadas duas variáveis coletadas de um conjunto de indivíduos: (1) variável contínua: intervalo de tempo entre a infecção por HIV e o diagnóstico em anos, e (2) variável categoria: estados de apresentação do HIV. No gráfico, é claro que, quanto mais grave a apresentação da doença, maior o intervalo de tempo entre a infecção por HIV e o diagnóstico. Isso se verifica não só comparando-se Q1, Mediana e Q3 de cada box plot, como também a crescente assimetria positiva dos dados.
Intervalo de tempo entre a infecção por HIV e o diagnóstico em anos para diferentes estados de apresentação do HIV: apresentação tardia com doença avançada (CD4 no diagnóstico < 200 células/mm³ ou presença de uma condição definidora de AIDS), apresentação tardia (diagnosticados com 200 células /mm³ ≤ contagens de CD4 < 350 células/mm³), apresentação não tardia (CD4 no momento do diagnóstico ≥ 350 células/mm³) e apresentação com estado desconhecido.
Gráfico de dispersão
Esse gráfico é utilizado quando se deseja avaliar (e representar) a relação entre duas variáveis. No gráfico a seguir, em vez de um dos eixos trazer informações sobre a frequência dos dados, cada eixo representa uma variável aleatória coletada de um mesmo grupo de indivíduos. Nesse gráfico usamos pontos para representar valores das duas variáveis numéricas diferentes. A posição de cada ponto nos eixos horizontal e vertical indica valores para um ponto de dados individual.
Usualmente, analistas usam esse gráfico para investigar mais precisamente relações lineares entre as variáveis, e por isso acabam incluindo nele uma reta (de regressão). Entretanto, o gráfico pode também revelar uma relação não linear, como podemos ver no exemplo a seguir.
Relação entre gordura corporal (Body fat%) e índice de massa corporal (BMI).
Faça você mesmo!
Crie seus próprios gráficos no R! No script modulo2aula1_atividades.R (Atividade 5), você irá construir gráficos de barras, boxplot e histograma usando o pacote ggplot2, visualizando os conceitos de distribuição e comparação entre grupos.