O que é criação de perfil de dados? Processo, melhores práticas e ferramentas
O processamento e a análise de dados não podem acontecer sem a criação de perfis de dados, revisando os dados de origem para conteúdo e qualidade a medida que os dados ficam maiores e a infraestrutura muda para a nuvem, a criação de perfis de dados é cada vez mais importante. Precisa obter perfis de big data com tempo e recursos limitados?
O que é o perfil de dados?
A criação de perfis de dados é o processo de revisão dos dados de origem, compreensão da estrutura, conteúdo e inter-relacionamentos e identificação do potencial para projetos de dados.
O perfil de dados é uma parte crucial de:
- Projetos de data warehouse e business intelligence (DW / BI) – a criação de perfis de dados pode revelar problemas de qualidade de dados em fontes de dados e o que precisa ser corrigido em ETL.
- Projetos de conversão e migração de dados – a criação de perfis de dados pode identificar problemas de qualidade de dados, que você pode tratar em scripts e ferramentas de integração de dados que copiam dados da origem para o destino. Ele também pode descobrir novos requisitos para o sistema de destino.
- Projetos de qualidade de dados do sistema de origem – o perfil de dados pode destacar dados que sofrem de problemas de qualidade sérios ou numerosos e a origem dos problemas (por exemplo, entradas do usuário, erros em interfaces, corrupção de dados).
O perfil de dados envolve:
- Coleta de estatísticas descritivas como mínimo, máximo, contagem e soma.
- Coleta de tipos de dados, comprimento e padrões recorrentes.
- Marcar dados com palavras-chave, descrições ou categorias.
- Executar avaliação de qualidade de dados, risco de realizar junções nos dados.
- Descobrir metadados e avaliar sua precisão.
- Identificar distribuições, candidatos-chave, candidatos-chave estrangeira, dependências funcionais, dependências de valor incorporado e execução de análise entre tabelas.
Tipos de perfis de dados
Existem três tipos principais de perfis de dados:
Descoberta de estrutura
Validar se os dados são consistentes e formatados corretamente e realizar verificações matemáticas nos dados (por exemplo, soma, mínimo ou máximo). A descoberta de estrutura ajuda a entender como os dados estão estruturados – por exemplo, qual porcentagem de números de telefone não tem o número correto de dígitos.
Descoberta de conteúdo
Olhando em registros de dados individuais para descobrir erros. A descoberta de conteúdo identifica quais linhas específicas em uma tabela contêm problemas e quais problemas sistêmicos ocorrem nos dados (por exemplo, números de telefone sem código de área).
Descoberta de relacionamento
Descobrir como partes dos dados estão inter-relacionadas. Por exemplo, relacionamentos-chave entre tabelas de banco de dados, referências entre células ou tabelas em uma planilha. Compreender os relacionamentos é crucial para reutilizar dados; as fontes de dados relacionadas devem ser unidas em uma ou importadas de uma maneira que preserve relacionamentos importantes.
Etapas de criação de perfil de dados – um processo eficiente para criação de perfil de dados
Ralph Kimball, pai da arquitetura de data warehouse, sugere um processo de quatro etapas para a criação de perfil de dados:
- Use a criação de perfil de dados no início do projeto para descobrir se os dados são adequados para análise – e tome uma decisão “vai / não vai” no projeto.
- Identifique e corrija problemas de qualidade de dados nos dados de origem, mesmo antes de começar a movê-los para o banco de dados de destino.
- Identifique problemas de qualidade de dados que podem ser corrigidos por Extract-Transform-Load (ETL), enquanto os dados são movidos da origem para o destino. A criação de perfil de dados pode descobrir se o processamento manual adicional é necessário.
- Identifique regras de negócios imprevistas, estruturas hierárquicas e relacionamentos de chave estrangeira / chave privada, use-os para ajustar o processo ETL.
Práticas recomendadas de criação de perfil de dados e análise de qualidade de dados
Técnicas básicas de criação de perfil de dados:
- Contagem e porcentagem distintas – identifica chaves naturais, valores distintos em cada coluna que podem ajudar a processar inserções e atualizações. Útil para tabelas sem cabeçalhos.
- Porcentagem de valores zero/em branco/nulos – identifica dados ausentes ou desconhecidos. Ajuda os arquitetos ETL a configurar os valores padrão apropriados.
- Comprimento mínimo/máximo/médio da string – ajuda a selecionar os tipos e tamanhos de dados apropriados no banco de dados de destino. Permite definir larguras de coluna suficientemente largas para os dados, para melhorar o desempenho.
Técnicas avançadas de criação de perfil de dados:
Integridade da chave – garante que as chaves estejam sempre presentes nos dados, usando análise zero/em branco/nula. Além disso, ajuda a identificar chaves órfãs, que são problemáticas para ETL e análises futuras.
Cardinalidade – verifica relacionamentos como um para um, um para muitos, muitos para muitos, entre conjuntos de dados relacionados. Isso ajuda as ferramentas de BI a realizar associações internas ou externas corretamente.
Distribuições de padrão e frequência – verifica se os campos de dados estão formatados corretamente, por exemplo, se os emails estão em um formato válido. Extremamente importante para campos de dados usados para comunicações de saída (e-mails, números de telefone, endereços).