O que entendemos por orientado a dados?
Orientação por dados trata da construção de ferramentas, habilidades e, o mais importante, de uma cultura que atua com base nos dados.
Este artigo irá delinear o que diferencia as organizações orientadas por dados.
Começo com alguns pré-requisitos iniciais sobre coleta de dados e acesso. Em seguida, comparo relatórios e alertas com análises em alguns detalhes, porque é uma distinção muito importante. Existem muitos tipos diferentes de análises prospectivas, variando em graus de sofisticação. Assim, passo algum tempo examinando esses tipos, descrevendo-os em termos de “níveis de analítica” e “maturidade analítica”, em particular, discutindo as marcas de uma organização analiticamente madura. Como é isso?
Vamos responder à nossa primeira pergunta: o que significa para uma organização ser orientada por dados?
Coleção de dados – Data Collection
Vamos começar pelo óbvio!
Pré-requisito #1: A empresa PRECISA coletar dados!
Os dados, sem dúvida, são um ingrediente chave. Claro, não pode ser apenas qualquer dado; tem que ser os dados corretos. O conjunto de dados deve ser relevante para a questão em questão. Também deve ser oportuno, preciso, claro, imparcial; e talvez o mais importante, deve ser confiável.
Esta é uma tarefa difícil. Os dados são sempre mais sujos do que você imagina. Pode haver tendências ocultas sutis que podem influenciar suas conclusões, e limpar e massagear os dados pode ser uma operação difícil, demorada e cara. Costumo ouvir que os cientistas de dados gastam 80% do tempo obtendo, limpando e preparando dados, e apenas 20% do tempo criando modelos, analisando, visualizando e tirando conclusões desses dados (por exemplo, http://bit.ly/nyt-janitor e http://bit.ly/im-data-sci). Na minha experiência, isso é totalmente plausível.
Mesmo se você tiver dados de qualidade, e mesmo se você tiver muitos dados de qualidade, você só vai chegar até certo ponto e; apesar do exagero que você pode ouvir, isso não o torna orientado por dados. Algumas pessoas, especialmente certos fornecedores de big data e provedores de serviço, propagam o big data como uma panacéia: se você coletar tudo, em algum lugar há diamantes (ou pepitas de ouro ou agulhas ou uma de muitas outras metáforas) que farão qualquer empresa bem-sucedida. A dura verdade é que os dados por si só não são suficientes. Uma pequena quantidade de dados limpos e confiáveis pode ser muito mais valiosa do que petabytes de lixo.
Acesso aos dados – Data access
Pré-requisito #2: Os dados devem ser acessíveis e consultáveis.
Ter dados precisos, oportunos e relevantes, no entanto, não é suficiente para contar como orientado por dados.
Também devem ser:
Acopláveis: Os dados devem estar em um formato em que possam ser agregados a outros dados corporativos quando necessário. Existem muitas opções, como bancos de dados relacionais, armazenamentos NoSQL ou Hadoop. Use a ferramenta certa para o trabalho. Por exemplo, por um longo tempo, os analistas financeiros da Warby Parker usaram o Excel para calcular as principais métricas relatadas à alta administração. Eles sugaram grandes quantidades de dados brutos de diferentes fontes e executaram VLOOKUPS (uma função do Excel para encontrar referências cruzadas nos dados) para juntar todos esses dados para obter uma visão de nível superior dos números. Isso funcionou bem no início, mas como as vendas e a base de clientes da empresa aumentavam rapidamente, os dados ficavam cada vez maiores, o arquivo do Excel se aproximava de 300 MB, seus computadores atingiam o limite máximo de RAM e o VLOOKUPS levava 10 horas ou mais, frequentemente travava , e teve que ser reiniciado. Eles esticaram a ferramenta e se aproximaram o máximo que puderam. O Excel tinha sido uma ferramenta apropriada, mas o hipercrescimento da empresa mudou isso. A mecânica de obter esses números tornou-se um grande desperdício de tempo para os analistas e uma fonte de estresse para saber se eles obteriam seus números ou teriam de esperar mais 10 horas para executar novamente aqueles VLOOKUPS. Transformou-os de analistas em engenheiros de dados da Microsoft. Minha equipe ajudou a trazer todo esse conjunto de dados para um banco de dados relacional MySQL. Escrevemos consultas para analisar os números para eles, permitindo que se concentrassem na análise, nas tendências e na apresentação desses dados – um uso muito melhor de seu tempo. Agora que têm ferramentas melhores e mais tempo, estão produzindo análises mais profundas e ricas.
Compartilháveis: Deve haver uma cultura de compartilhamento de dados dentro da organização para que os dados possam ser reunidos, como combinar o fluxo de cliques dos clientes com seu histórico de transações. Imagine um paciente internado em um pronto-socorro de um hospital, recebendo tratamento e depois recebendo alta com a necessidade de comparecer a um ambulatório para tratamento adicional e exames. O paciente receberá um atendimento ao cliente pior e, mais importante ainda, um atendimento pior se o hospital e a clínica não compartilharem dados – quando, onde e por que ele foi internado, quais problemas apresentou, que tratamento recebeu, etc. Na perspectiva dos profissionais de saúde, seus analistas acharão difícil ou impossível analisar e melhorar o processo e o atendimento se não tiverem uma imagem coerente e precisa do fluxo do paciente, dos processos diagnósticos e dos dados longitudinais completos desses pacientes. Portanto, os dados em silos sempre inibirão o escopo do que pode ser alcançado. Quando mais dados estão disponíveis para mais partes de um sistema, o todo é maior do que a soma das partes.
Consultáveis: Deve haver ferramentas adequadas para consultar, fatiar e dividir os dados. Todos os relatórios e análises requerem filtragem, agrupamento e agregação de dados para reduzir as grandes quantidades de dados brutos em um conjunto menor de números de nível superior que ajudam nossos cérebros a compreender o que está acontecendo em um negócio. Preciso ser capaz de ver tendências ou compreender as diferenças entre os segmentos de clientes. Os analistas precisam ter ferramentas que lhes permitam calcular essas métricas com relativa facilidade.
OK, agora temos dados e estão acessíveis. Isso é suficiente? Não, ainda não. Você precisa de pessoas com as habilidades certas para usar esses dados. Isso pode significar a mecânica de filtrar e agregar dados, como por meio de uma linguagem de consulta ou macros do Excel, mas também significa pessoas que projetam e escolhem as métricas apropriadas para extrair e rastrear.
Comunicando – Reporting
Suponhamos que você tenha um grupo analítico com acesso a dados precisos. O grupo extrai dados de vendas e gera um relatório afirmando com orgulho que as reservas da empresa cresceram 5,2% de abril a maio.
Agora somos uma empresa orientada por dados!
No entanto, isso ainda é profundamente insuficiente. Certamente é bom que eles estejam monitorando essas métricas. O CFO e o CEO definitivamente se interessarão por esses números. O que, entretanto, esse valor de 5,2% realmente diz a você? Muito pouco, na verdade. Existem muitas razões possíveis pelas quais as vendas da empresa aumentaram neste valor:
- Suponha que você venda um produto altamente sazonal, como roupas de praia. Talvez 5,2% seja muito menor do que o normal. Talvez na maioria dos anos, o crescimento de maio é mais de 7% em relação ao mês anterior e o crescimento deste ano está bem abaixo da média.
- Talvez seu diretor de marketing tenha gasto muito dinheiro em uma campanha nacional para aumentar o conhecimento da marca. Quanto desse crescimento de 5,2% foi gerado a partir dessa campanha, e essa campanha foi um bom valor para o dinheiro?
- Talvez seu CEO tenha aparecido no Good Morning America, ou seu produto tenha aparecido no Techcrunch, ou um vídeo se tornou viral, e esse foi o motivador. Ou seja, o crescimento pode ser rastreado até um evento impulsionador específico e incomum (que pode impulsionar o crescimento temporário ou sustentado).
- Talvez as vendas mensais sejam de baixo volume e altamente variáveis. Talvez esse crescimento tenha sido apenas sorte e talvez a tendência geral seja de queda. (Se você já negociou ações, com certeza vai entender.)
- Talvez os dados estejam simplesmente errados. Se suas vendas estiverem relativamente estáveis, você observar um pico e não estiver ciente de nenhum evento incomum, talvez haja um problema de qualidade de dados.
Todas podem ser verdadeiras. O número relatado é apenas isso, um valor numérico com pouco ou nenhum contexto.
Alertas – Alerting
Os alertas são essencialmente relatórios sobre o que está acontecendo agora. Eles normalmente fornecem dados muito específicos com métricas bem projetadas. Mas, como os relatórios, eles não dizem por que você está vendo um pico na utilização da CPU e não dizem o que fazer agora para corrigir o problema. Como tais, assim como os relatórios, eles carecem desse contexto crucial. Não há explicação causal. Este é o ponto em que engenheiros de desempenho ou administradores de sistema mergulham nos registros de produção para verificar o que está acontecendo, por que está acontecendo e quais são as opções para consertá-lo: reverter algum código, ativar mais alguns servidores, reconfigurar a carga balanceador, etc.
A figura acima mostra um exemplo de carregamento do servidor ao longo do tempo. Existe alguma variação, mas a maior parte do dia é passada com uma fila de execução de cerca de 0,5 ou menos. À 1h, a carga começa a aumentar, disparando para mais de 5, um aumento de dez vezes em relação ao “normal”, no espaço de 30 minutos. Parece altamente incomum. O que está acontecendo?
Talvez alguém deva consertar isso, mas como?
Nesse caso, são apenas os backups semanais em execução. Isso acontece todas as quintas-feiras à 1h – perfeitamente normal, nada para ver aqui. Isso mostra que há ótimos dados aqui e uma boa métrica que é apresentada com clareza. Mas o contexto – que é causado por backups, que acontece em uma programação específica e este intervalo de 1 hora da manhã é esperado e que o servidor pode lidar com essa carga sem problemas – está ausente.
Temos as métricas, a coleta de dados está funcionando, e temos qualidade nos dados.
E AGORA, O QUE FAZEMOS?