Módulo 2 | Aula 2
Princípios de boas práticas na visualização de Dados
Princípios de boas práticas na visualização de dados
Primeiro, vamos mostrar um exemplo de gráfico ruim:
Esse gráfico não é apenas ruim, ele está totalmente errado. O gráfico começa do valor 4%, mas o eixo Y apresenta pequenas diferenças que foram amplificadas. Além disso, as barras não correspondem aos números indicados, com a barra de 2013 sendo maior do que a barra de 2010 e 2011, apesar do número ser menor. Vamos ver como esse gráfico seria se fosse feito de forma mais realista:
Faça você mesmo!
Você pode gerar este mesmo gráfico executando os comandos abaixo no script que estão disponíveis no nosso GitHub, no item da Atividade 3.
Atenção: o código abaixo só funcionará se o pacote ggplot2 estiver instalado e carregado com library(ggplot2). No Módulo 1 vimos como instalar e ativar pacotes. Caso você ainda não tenha instalado o Tidyverse ou o ggplot2, volte ao tópico correspondente para realizar a instalação.
E o que faz um bom gráfico?
Clareza e simplicidade
A visualização deve ser intuitiva e fácil de entender, isto é, tente sempre limitar a apenas uma mensagem por gráfico. Evite gráficos complexos, transmitindo diferentes informações na mesma visualização.
Usar cores pode facilitar a leitura e a interpretação dos dados.
Cada gráfico deve ter uma mensagem clara, que pode conter diferentes grupos de informação, porém apenas uma única mensagem.
No gráfico abaixo há apenas a mensagem do aumento de risco após dengue, com 4 diferentes grupos de informação (os diferentes desfechos). As cores foram utilizadas para facilitar a interpretação, separando o tempo após o início dos sintomas em vermelho e azul.
Razão da taxa de incidência por período após a infecção por dengue
Porém, a utilização de cores nem sempre é benéfica. Se no gráfico refeito do “IPCA por ano no Brasil” fossem incluídas diferentes cores para cada barra, em nada ajudaria na compreensão da mensagem.
IPCA por ano no Brasil em cores
As cores não ajudam na interpretação porque cada barra representa sempre a mesma unidade (Brasil em cada ano); diferente da figura 4 em que os pontos com diferentes cores representam diferentes medidas.
Como já dito, as cores podem ser utilizadas para distinguir itens no gráfico, mas também podem ser utilizadas para representar valores em uma mesma escala.
No gráfico adiante, cada barra representa a média de milhas por galão de cada montadora; as cores das barras representam a mesma informação que o eixo x, porém os tons de azul facilitam ao passar a mensagem da diferença em consumo entre as montadoras.
Gráfico com uso de cores sequenciais para destacar a informação.
Contudo, é importante prestar atenção à escolha das cores, refletindo sobre a acessibilidade do gráfico. Lembre-se de que nem todos veem cores da mesma forma!
Paleta de cores. True = Sem daltonismo, Prot = protanopia, Deut = deuteranopia e Trit= tritanopia.
Nesse novo exemplo de gráfico podemos ver que o uso de vermelho e verde pode prejudicar a compreensão da figura para pessoas daltônicas (protanopia ou deuteranopia), enquanto o uso de azul e verde pode prejudicar no caso de tritanopia.
O site https://davidmathlogic.com/colorblind/ fornece ferramentas úteis para comparar como a sua escolha de cores será vista nos diferentes tipos de daltonismo.
Contextualização dos dados
Os gráficos, sempre que possível, devem ser capazes de ser interpretados sem nenhuma informação adicional, isto é, toda informação necessária para entender a mensagem deve estar contida na imagem. Para alcançar isso é importante a inclusão de títulos claros, e rótulos dos eixos precisos.
Os rótulos dos eixos sempre devem conter a unidade de medida. Por exemplo, o rótulo do eixo Y como “Altura dos pacientes” não inclui a informação da unidade de medida; a forma correta seria “Altura dos pacientes (em metros)” ou colocar o indicativo da unidade de medida ao lado dos números do eixo Y, como “m”, “cm” etc.
Incidência de dengue por 1.000 habitantes no Brasil no período entre 2014 e 2024
Em alguns casos, não será possível contar uma história completa apenas com o texto presente nos eixos e legendas das cores. Nesse caso, a informação adicional deve aparecer no título ou legenda da figura (negrito), como no exemplo acima.
Na figura, foi possível indicar que a medida está expressa por 1.000 habitantes, enquanto a informação sobre o período analisado foi apresentada no título da figura.
Escolha apropriada do tipo de gráfico
Existe uma grande variedade de tipos de gráficos e eles possuem especificidades em relação ao tipo de dado e objetivo da visualização. Há algumas regras gerais para a escolha de gráficos, como: gráficos de linha são usados para séries temporais, nesses gráficos o “tempo” aparece no eixo X, facilitando a compreensão do leitor; gráficos de pizza ou outros gráficos que envolvem comparar ângulos são péssimas escolhas, uma vez que somos péssimos em avaliar ângulos; por esse motivo, gráficos de pizza devem sempre ser acompanhados do número que cada faixa representa. Uma alternativa ao gráfico de pizza é o gráfico de waffle.
Nesse exemplo, podemos comparar os dois tipos de gráfico. No gráfico de waffle é muito mais fácil perceber que o grupo A é maior do que o grupo B. Foram omitidas as porcentagens em cada grupo no gráfico de pizza para mostrar que, visualmente, esse tipo de gráfico é uma escolha ruim. Contudo, todo gráfico de pizza ou de donut deve ser acompanhado dos números (absolutos ou percentuais) que cada fatia representa.
Gráfico de pizza e de donut com os rótulos indicando o percentual que cada grupo representa
No gráfico ao lado, os números estão representados na imagem.
Outro tipo de gráfico que deve ser evitado é o gráfico em 3D. O gráfico será exibido em um monitor (ou papel) em 2D e essa diferença de dimensões causa distorções na compreensão da informação. Há alguns bons (e raros) usos de 3D, como em mapas topográficos, uma vez que o objeto real reflete as três dimensões.
Agora que vimos os princípios de como criar um bom gráfico, você pode estar se perguntando: “qual ferramenta devo usar?”
Você pode utilizar o pacote “ggplot2” do software R. O ggplot2 segue a filosofia da gramática gráfica, na qual cada camada do gráfico tem seu conjunto de argumentos sendo feitos de forma independente, especificando-se o tipo de gráfico (barra, dispersão, linha etc.), as cores, as escalas, as legendas etc.
Há outras ferramentas que seguem a mesma filosofia, como o pacote seaborn para Python. Porém, os princípios indicados nesta aula são válidos para gráficos gerados a partir de qualquer ferramenta.
Faça você mesmo!
Pratique a criação de bons gráficos no R! No script modulo2aula2_atividades.R (Atividades 4 a 6), você irá gerar gráficos, aplicar cores adequadas e adicionar todos os elementos de contextualização necessários.
Os sites https://datavizproject.com/, https://datavizcatalogue.com/ e https://flourish.studio/blog/choosing-the-right-visualisation/ fornecem um bom material para guiar a escolha do tipo de gráfico que melhor se encaixa na sua análise.
Material ensinando a fazer os gráficos no R: https://r-charts.com/ e https://r-graph-gallery.com/. Esses dois sites fornecem os comandos necessários para gerar cada tipo de gráfico.