Série 3 | Curso 2

Dados Abertos

Aula 2

Gestão ativa de “dados”, uma mudança cultural

Seja bem-vindo a aula 2 do seu curso! Aqui você irá aprender sobre o que é essa gestão de dados e como é importante sua curadoria. Muitas vezes estamos manipulando dados preciosos, e devido ao armanezamento inadequado ou falta de prática, esse dado é perdido.

Aproveite o conteúdo e desejamos a você bons estudos!

A importância da gestão dos dados

A importância da gestão dos dados

Outro fator que pode comprometer o valor informacional dos dados é a escassez de documentação sobre como eles foram produzidos e/ou coletados e que tratamentos foram submetidos ao longo do seu ciclo de vida. A ausência de dados sobre os dados (ou metadados) podem torná-los incompreensíveis no futuro mais próximo do que muitos imaginamos.

Nesse sentido, o desafio das instituições não é apenas preservar os conjuntos de dados em si, mas, sobretudo, a capacidade de transmitir informação necessária para o seu reuso efetivo no futuro. Seja pelo próprio grupo de pesquisa, que conta com registros completos de suas atividades, seja por terceiros que podem acessá-los e reutilizá-los em novos contextos e análises.

Dialogando com a perspectiva da Ciência Aberta, diversas agências governamentais de fomento à pesquisa e financiadores privados estão adotando gradativamente políticas mandatórias para gestão de dados. O momento atual é de promoção de novas práticas que estabelecem responsabilidades, fluxos e recursos para maximizar a sua disponibilidade e potencial reuso. Para tal, as instituições de ensino e pesquisa estão investindo na capacitação de seus profissionais e no desenvolvimento/adoção de infraestruturas para gestão ativa dos dados. 

Os 8 principais argumentos a favor da gestão ativa (ou estratégica) de dados são:

1) Promover debates consistentes em ciência


Ícone de flip card

Estabelece a linhagem dos dados, ou seja, registra os diversos estágios e as transformações desde o momento da captura, passando pelo processamento, modelagem até a sua interpretação.

2) Construir memória e fortalecer a reputação institucional


Ícone de flip card

Possibilita respostas adequadas às controvérsias e evita suspeitas sobre a integridade  das pesquisas, salvaguardando o pesquisador e a instituição.

3) Aumentar a velocidade das descobertas


Ícone de flip card

Possibilita o reuso de dados previamente estruturados, poupando tempo e favorecendo que avanços científicos aconteçam mais rapidamente.

4) Favorecer a eficiência econômica


Ícone de flip card

Protege o investimento em pesquisa ao evitar a perda de dados e promover condições de reuso, dispensando duplicação de investimentos.

5) Fomentar a reprodutibilidade de experimentos


Ícone de flip card

Impulsiona o avanço do conhecimento a partir de estudos prévios, cujos resultados podem ser confirmados por outros cientistas de diferentes laboratórios.

6) Facilitar o enfrentamento de surtos e emergências sanitárias


Ícone de flip card

Possibilita a colaboração (por vezes aberta, em tempo real)  entre pesquisadores que estão lidando com situações limite, como os recentes surtos (febre amarela e chikungunya) de 2017 e emergência sanitária (zika) de 2015/2016, e emergên- cia sanitária da Covid-19 de 2020/2021.

7) Explorar novas formas de produção de conhecimento


Ícone de flip card

Cria condições para um novo modo de fazer ciência baseado no uso intensivo de computadores para obter novos significados a partir da mineração de textos e análise de dados.

8) Ampliar a participação social


Ícone de flip card

Oportuniza o direito de acesso à informação e a possibilidade da sociedade incidir sobre o campo científico.

Dados oriundos de pesquisa: entre o big data e a cauda longa

Dados oriundos de pesquisa: entre o big data e a cauda longa

Fonte: Elaboração própria, baseado em HEIDORN(2008).

Segundo Heidorn (2008), apesar dos dados serem um importante produto da pesquisa científica, as instituições ignoraram esse tipo de registro e produziram um grande volume de “dados obscuros” (dark data). Esta expressão faz referência a dados que não foram cuidadosamente indexados e armazenados e se tornaram praticamente invisíveis para cientistas e outros usuários em potencial. Eles permanecem subutilizados e eventualmente são perdidos em pen drives, CDs e computadores pessoais.

Inspirado pela expressão "cauda longa", popularizada por Chris Anderson (2004) para descrever a curva de distribuição de venda de produtos no comércio eletrônico, Heidorn identifica uma situação análoga na produção de dados pelas instituições de pesquisa e ensino, caracterizada por dois padrões. No começo da curva, encontramos alguns poucos projetos que produzem grandes volumes de dados - são os chamados big data. Já a continuação da curva é composta por muitas iniciativas que produzem individualmente pequenos volumes de dados - a cauda longa.

Em termos de produção e gestão de dados, os projetos de big data e de cauda longa apresentam diferenças expressivas, especialmente em relação a gestão de dados e a proliferação de “dados obscuros”.

Os projetos de pesquisa big data dependem, desde o princípio, da colaboração de dezenas ou até centenas de pesquisadores porque os seus objetivos são ambiciosos demais para serem conquistados por poucas pessoas. São estudos que produzem volumes massivos de dados e, em geral, precisam fazê-los circular entre pesquisadores espalhados por diversos laboratórios e países. Por isso, a gestão de dados é um pilar sobre o qual a atividade de pesquisa se apoia fortemente. Na prática, eles estabelecem rotinas, padrões e formatos para viabilizar a colaboração.

São chamados de big data os conjuntos de dados que cresceram tanto e de maneira tão complexa que impõe desafios para trabalhar com as ferramentas tradicionais de gestão de banco de dados.

Os 5 V's do Big Data
Volume São chamados de big data os conjuntos de dados que cresceram tanto e de maneira tão complexa que impõe desafios para trabalhar com as ferramentas tradicionais de gestão de banco de dados.
Variedade Se refere aos diferentes tipos de dados, como os textuais, imagens, vídeos, georreferenciados, estatísticos etc.
Velocidade Se refere à rapidez com que dados são criados. Ou a taxa de transferência de dados entre a origem e o destino.
Valor Representa o valor (geralmente comercial) a ser derivado do big data.
Veracidade Se refere a precisão dos dados, fundamentais para sua análise.

Uma experiência pioneira no campo do big data em saúde foi o Projeto Genoma Humano, cujo ambicioso objetivo de obter o sequenciamento do DNA, promoveu a colaboração aberta em larga escala de centenas de pesquisadores e mobilizou um orçamento de cerca U$ 2.7 bilhões. Esta iniciativa (1988-2001) estabeleceu como prática mandatória a disponibilização aberta de dados como pré-requisito para a publicação de artigos científicos, constituindo uma nova cultura no campo da genômica. Veja abaixo o vídeo:

Vídeo 1 - Lesson from the Human Genome Project 

Fonte: National Human Genome Research Institute.

Os tipos de dados

Já a cauda longa dos dados é constituída por um grande número de pesquisas que individualmente produzem pequenos volumes de dados, mas que somados constituem uma parcela importante do acervo das instituições. Geralmente, são conjuntos de dados heterogêneos produzidos ou coletados por equipes pequenas, compostas por um pesquisador e alguns alunos de Pós-Graduação, que compartilham um laboratório ou tópico de pesquisa.

Aqui, a gestão de dados tende a ser menos estruturada porque os procedimentos de documentação e indexação seguem a lógica interna do grupo e não necessariamente adota padrões amplamente estabelecidos como meio de operacionalizar a colaboração aberta. Na maioria das vezes, o grupo tem acesso exclusivo à íntegra dos dados, armazenados localmente e não contam com a orientação de políticas de preservação. Este quadro geral favorece o crescimento exponencial dos “dados obscuros”.

Entre o big data a cauda longa
 
Quadro comparativo das principais características
Big Data Cauda Longa
Volume de Dados Grande Pequeno
Uniformidade Homogêneos Heterogêneos
Coleta de Dados Automatizada Manual
Documentação Estruturada Menos estruturada
Curadoria Centralizada Individual
Diretrizes e normas Uniformes e estabelecidas Únicas ou inexistentes
Repositório de preferência Disciplinar ou temático Institucional, quando depositado
Visibilidade para terceiros Visível Invisível
Acesso Aberto Fechado
Reutilização Frequente Rara
Desafio Atuar sobre grandes volumes Melhorar a curadoria

Fonte: Elaboração própria, baseado em HEIDORN(2008).

Gestão de Dados na Prática

Gestão de Dados na Prática

Atualmente, os investimentos para implementar a gestão ativa de dados priorizam as pesquisas da cauda longa, cujos dados não são cuidadosamente indexados e armazenados e que correm maior risco de se tornarem inacessíveis e subutilizados. Esta atividade começa no planejamento da coleta e/ou geração de dados, passando por processos de limpeza, curadoria, indexação e registro das transformações até o seu armazenamento e preservação de longo prazo.

O Digital Curation Center (DCC), do Reino Unido, representa graficamente o ciclo de vida dos dados, elencando as ações necessárias para a sua gestão ativa.

  • Conceitualizar e planejar a coleta de dados, incluindo os métodos de captura e as opções de armazenamento. Algumas dicas:

    • Adote a ideia de que a curadoria de dados é uma boa prática de pesquisa.
    • Conheça as expectativas dos financiadores e avalie a sua capacidade de atendê-las.
    • Determine e documente, logo no início do projeto, os direitos de propriedade intelectual.
    • Identifique questões referentes à publicação de dados, tais como embargos e restrições.
    • Identifique e documente funções e responsabilidades das pessoas envolvidas.
    • Crie dados e seus respectivos metadados administrativos, descritivos, estruturais e técnicos. Se receber dados de terceiros, faça de acordo com políticas de coleta, de criadores de dados, outros arquivos, repositórios ou centros de dados. Se necessário, atribua metadados apropriados.
    • Defina para quem você está coletando dados e o que as pessoas podem fazer (ou não) com eles.
    • Identifique requisitos de proteção de dados a serem adotados durante a pesquisa.
    • Adote, logo no princípio da pesquisa, padrões de conteúdo, sintaxe e estrutura.
    • Promova treinamentos para equipe, se necessário.
    • Identifique métricas de qualidade dos dados e monitore.
    • Trabalhe em conjunto com outros pesquisadores e profissionais da informação.
    • Seja realista e encontre um equilíbrio entre o que é suficiente e o que é ideal.
    • Avalie os dados e selecione aqueles que passarão por curadoria e preservação de longo prazo. Siga orientações, políticas ou requisitos legais.
    • Avalie e identifique os conjuntos de dados considerados valiosos. 
    • Identifique quais dados serão necessários manter para apoiar suas descobertas no futuro.
    • Defina para quem você está mantendo os dados e o que poderá ser feito com eles no futuro.
    • Defina que dados podem ser descartados, garantindo conformidade com requisitos legais.
    • Garanta que os dados atendam às métricas mínimas de qualidade. Se necessário, reavalie os dados antes de depositá-los em repositórios.
    • Articule-se com pesquisadores e gestores de informação para implementar fluxos de trabalho e políticas.
    • Avalie de acordo com o momento atual, mas pense no futuro.
    • Transfira os dados para arquivos, repositórios, centro de dados ou outros espaços de custódia, aderindo a guias, políticas e requerimentos legais. 
    • Utilize padrões de arquivamento para descrever dados hierárquicos.
    • Conheça políticas de repositório que podem afetar o depósito a longo prazo.
    • Torne o processo mais direto e automático possível.
    • Defina um responsável pela garantia de qualidade dos dados antes do depósito (Lembre-se que a qualidade dos dados não é absoluta e deve ser avaliada frente ao seu objetivo. Dados de "alta qualidade" para um grupo pode ser inadequado para outros.)
    • Obtenha uma notificação formal, quando possível, da transferência de dados.
    • Realize ações de preservação para garantir que os dados permaneçam autênticos, confiáveis, íntegros ​​e utilizáveis.
    • Defina o que as pessoas poderão fazer com  os dados.
    • Identifique e comunique as propriedades significativas dos dados, visando a sua preservação.
    • Seja crítico ao analisar as melhores práticas e abordagens recomendadas. Eles podem funcionar em cenários específicos, mas não para sua pesquisa.
    • Documente ações de preservação para que outros saibam o que foi feito com os dados ao longo do tempo.
  • Armazene os dados de maneira segura, seguindo padrões relevantes.

    • Garanta que os dados estejam acessíveis para usuários designados por você ou outros potenciais reutilizadores, registrando informação sobre eles e, quando necessário, aplicando controles e procedimentos de autenticação.
    • Determine o que os usuários podem fazer com os dados e por quanto tempo.
    • Identifique e comunique as propriedades significativas dos dados.
    • Garanta que restrições de acesso e uso sejam comunicadas e respeitadas.
    • Forneça informações de contexto suficiente para que os dados sejam localizados e usados.
  • Crie novos dados a partir do original através da migração para diferentes formatos, criação de subconjuntos, seleção ou query, criação de novos resultados derivados.

Ações Ocasionais

Descartar

Remova os dados que não foram selecionados para a curadoria e preservação de longo prazo em consonância com políticas, guias e requisições legais (como a destruição segura). 

Reavaliar

Reveja dados que foram reprovados em procedimentos de validação.

Migrar

Migre dados para novos formatos, adequando-os para repositórios e garantindo a imunidade dos dados à obsolescência de hardware ou software.

Identificando a Qualidade dos Dados Abertos

Identificando a Qualidade dos Dados Abertos

O slogan do Digital Curation Center é que “boa pesquisa precisa de bons dados” (good research needs good data”). Mas o que isso significa na prática? Para David Tarrant, instrutor do Open Data Institute (ODI), dados abertos de qualidade são compreensíveis por humanos e que podem ser trabalhados por máquinas. Nesse sentido, não se trata de simplesmente fazer o upload de um arquivo em um site, mas atender a critérios de qualidade estabelecidos pela sua própria comunidade. Veja no vídeo abaixo mais detalhes sobre dados de qualidade:

Vídeo 2 - Assessing open data quality 

Fonte: European Data Portal.

O que são dados de qualidade?
Legais Abrange a proteção de dados sensíveis e informação pessoal; a preservação dos direitos de seus titulares e a promoção de reuso de dados através de licenças.
Prático Informa o contexto dos dados: que dados são esses, qual a sua proveniência e como eles foram utilizados?
Técnico Advoga por formatos e estrutura dos dados, além dos canais pelos quais eles se tornam acessíveis.
Social Se refere a construção de comunidades, canais de discussão e, incluindo serviços, ferramentas e guias.

Conclusão

Nesse curso você aprendeu sobre a importância da gestão, tratamento e refine dos dados.

Agora, você concluiu esse módulo! Até a próxima aula. Bom trabalho!

Parceiros:
Logo da Escola Corporativa da Fiocruz
Logo da Universidade do Minho