O que é um catálogo de dados?

O que é um catálogo de dados?

Basicamente, um catálogo de dados é um inventário organizado dos dados da sua empresa. É isso.

O catálogo de dados fornece uma visão geral apenas no nível de metadados e, portanto, nenhum valor de dados real é exposto. Essa é a grande vantagem de um catálogo de dados: você pode deixar que todos vejam tudo sem medo de expor dados confidenciais ou sensíveis. Na Figura 1-1, você pode ver uma descrição resumida de um catálogo de dados.

Figura 1-1
Figura 1-1

Um catálogo de dados é basicamente um banco de dados com metadados que foram enviados ou extraídos de fontes de dados no cenário de TI de uma determinada empresa. O catálogo de dados também possui um mecanismo de busca que permite pesquisar os metadados coletados nas fontes de dados. Um catálogo de dados quase sempre terá muito mais recursos, mas a Figura 1-1 ilustra os componentes principais necessários. E neste artigo, argumento que a capacidade de pesquisa é o recurso mais importante dos catálogos de dados.

Com um catálogo de dados, toda a sua organização tem a capacidade de ver os dados que possui. Usada corretamente, essa transparência pode ser muito útil. Por exemplo, os cientistas de dados não gastarão mais metade do seu tempo procurando dados e terão uma visão geral muito melhor dos dados que podem realmente agregar valor.

Imagine as possibilidades. Eles poderiam estar usando seu tempo para analisar esses dados e descobrir insights que poderiam levar a empresa a desenvolver produtos melhores!

Crie uma visão geral do cenário de TI

Criar uma visão geral do seu cenário de TI envolve encontrar e exibir todas as fontes de dados contidas nele, além de listar as pessoas ou funções associadas a ele.

Um catálogo de dados pode extrair metadados com um rastreador integrado que verifica seu cenário de TI. Como alternativa, ele pode receber metadados por push, fazendo com que seus sistemas de dados relatem metadados para seu catálogo.

O cenário de TI refletido em seu catálogo de dados terá terminologia de negócios adicionada como “tags” – termos que são criados no catálogo de dados e organizados em glossários. Além dos termos do glossário, você também pode aprimorar os ativos do seu catálogo de dados com metadados, completos com descrições, classificações adicionais e muito mais.

Além disso, um catálogo de dados possui várias funções e permissões integradas, como administrador de dados, proprietário de dados (os catálogos de dados têm nomes de tipos de função diferentes) e outras funções que executam tarefas específicas no catálogo de dados.

Depois de ‘descobrir’ seu cenário de TI e atribuir termos selecionados, outros metadados e funções a ele, ele poderá ser pesquisado no catálogo.

Nenhum funcionário pode ver todos os dados do cenário de TI.

Ainda mais confuso: nenhum funcionário pode ver os dados que outros podem ver. Basicamente, ninguém conhece todos os dados do cenário de TI: eles são opacos. Essa realidade também é chamada de silos de dados.

Os silos de dados surgem quando vários grupos de funcionários trabalham com os seus próprios dados nos seus próprios sistemas, isolados e sem ter conhecimento dos dados do resto da organização.

Esse estado — o estado de isolamento de dados — é a causa raiz de um imenso conjunto de problemas em muitas organizações, que o catálogo de dados aborda e, em última análise, resolve. Esses problemas incluem análise de dados aplicada a dados sem qualidade, conjuntos de dados incompletos e dados sem rótulos de segurança e confidencialidade.

No catálogo de dados, a situação é completamente oposta do próprio cenário de TI. Tudo no catálogo de dados fica visível para todos os funcionários. Todos podem ver tudo – no nível dos metadados. E consequentemente, todos os funcionários podem ter uma ideia de todos os dados da sua empresa, com base nesses metadados. Eles estão atentos e conscientes dos dados fora de seu próprio silo de dados, agora passado.

Quanto mais o catálogo de dados se expande, mais todos podem ver. Se isso faz você pensar que um catálogo de dados possui um potencial notável, você não está errado – e descobrirá a magnitude desse potencial quando se aprofundar no assunto.

Com base na minha experiência, sugiro que você organize os dados em um catálogo de dados da seguinte maneira:

  • Organize os dados;
  • Habilite a pesquisa de dados da empresa;
  • Descoberta de dados;
  • Crie uma equipe de Data Discovery;
  • Tenha um arquiteto de dados;
  • Tenha um engenheiro de dados.

Também recomendo que vocês conheçam o Amundsen.io que é o catálogo de dados desenvolvido pela Lyft e é open source, abaixo tem um link de um artigo que traduzi da página oficial do produto.

Conclusão

Agora você teve a primeira(sucinta e breve) impressão de um catálogo de dados. Essa ferramenta exclusiva representa um passo poderoso para sua empresa rumo ao uso melhor e mais seguro de seus dados.

Tags:

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *