read_more
Campus Virtual Fiocruz

Introdução à Análise de Dados para pesquisa no SUS

Módulo 2 | Aula 2
Formas de visualização de dados e métodos analíticos

Tópico 1

Introdução

A visualização de dados desempenha papel essencial na análise e comunicação de informações. Com a crescente quantidade de dados disponíveis, uma boa visualização permite que informações complexas sejam apresentadas de forma clara e compreensível.

Poderíamos simplesmente realizar as análises focando nos coeficientes, sem a necessidade de examinar gráficos com muitos pontos. Isso certamente facilitaria o processo de análise mais ágil, mas seria uma má ideia. Um dos exemplos clássicos é o quarteto de Anscombe, composto por quatro conjuntos de 11 pontos que possuem o mesmo coeficiente de correlação linear de Pearson.

Correlação de Pearson dos conjuntos de Anscombe
Conjunto coeficiente Valor de p Limite inferior (Intervalo de confiança) Limite superior (Intervalo de confiança)
1 0.82 0.00217 0.424391 0.950693
2 0.82 0.00218 0.423939 0.95064
3 0.82 0.00218 0.424062 0.950655
4 0.82 0.00216 0.424639 0.950722

Agora, vamos visualizar os dados desses quatro conjuntos:

Gráfico de dispersão mostrando os quatro conjuntos de dados que formam o quarteto de Anscombe

No gráfico anterior podemos ver que cada conjunto de dados tem um comportamento bem diferente. O conjunto 1 apresenta um comportamento linear, enquanto o conjunto 2 um comportamento não linear; o conjunto 3 é também linear, porém com um outlier, e o conjunto 4 apresenta um comportamento constante, porém também com outlier.

Essa possibilidade de diferentes comportamentos com mesmas métricas de sumarização foi expandido por Matejka e Fitzmaurice.

Gráfico de dispersão dos 12 conjuntos de dados propostos por Matejka e Fitzmaurice

Esses 12 conjuntos de dados parecem bem diferentes, não é? Porém, vamos ver as métricas de cada um deles.

Correlação de Pearson dos conjuntos de Anscombe
Conjunto Média X Média Y Desvio Padrão X Desvio Padrão Y Coeficiente de correlação
away 54.27 47.83 16.77 26.94 -0.06
bullseye 54.27 47.83 16.77 26.94 -0.07
circle 54.27 47.84 16.76 26.93 -0.07
dots 54.26 47.84 16.77 26.93 -0.06
h_lines 54.26 47.83 16.77 26.94 -0.06
high_lines 54.27 47.84 16.77 26.94 -0.07
slant_down 54.27 47.84 16.77 26.94 -0.07
slant_up 54.27 47.83 16.77 26.94 -0.07
star 54.27 47.84 16.77 26.93 -0.06
v_lines 54.27 47.84 16.77 26.94 -0.07
wide_lines 54.27 47.83 16.77 26.94 -0.07
x_shape 54.26 47.84 16.77 26.93 -0.07

Como pode ser observado, os valores das métricas indicam que os conjuntos seriam muito parecidos entre si, porém o comportamento de cada um é bem diferente.

E esse exemplo pode ser extrapolado. Observe a figura a seguir. Você acreditaria que as métricas dela são semelhantes aos conjuntos mostrados anteriormente?

Faça você mesmo!

Explore o Quarteto de Anscombe e o Datasaurus no R! No script modulo2aula2_atividades.R (Atividades 1 e 2), você irá calcular estatísticas idênticas para conjuntos de dados completamente diferentes e visualizar por que nunca devemos confiar apenas em números.

Você pode testar conferir isso utilizando o pacote datasauRus.

Vimos a importância de visualizar os dados anteriormente à análise de dados, mas qual é a utilidade da visualização de dados após a análise?

A principal finalidade da visualização de dados é transformar os resultados de forma que seja de fácil consumo, compreensível e útil ao leitor.

Transmitir resultados por tabelas permite mostrar os dados de forma acurada e incluir muita informação, contudo tabelas não são consumidas rapidamente

Vamos ver um exemplo da diferença entre tabelas e figuras utilizando dados do artigo:

Major acute cardiovascular events after dengue infection–A population-based observational study, de Wei et. al. (2022). Nesse estudo os autores avaliaram o risco de eventos cardiovasculares após dengue.

E o que caracteriza um bom gráfico? É o que vamos descobrir!