Para analistas de dados, ‘trabalho de zelador’ é o principal obstáculo aos insights
As revoluções da tecnologia vêm em passos medidos, às vezes arrastados. A ciência do laboratório e o entusiasmo do marketing tendem a subestimar os gargalos ao progresso que devem ser superados com trabalho árduo e engenharia prática.
O campo conhecido como “big data” oferece um estudo de caso contemporâneo. O bordão representa a abundância moderna de dados digitais de muitas fontes – a web, sensores, smartphones e bancos de dados corporativos – que podem ser extraídos com software inteligente para descobertas e insights. Sua promessa é uma tomada de decisão mais inteligente e baseada em dados em todos os campos. É por isso que o cientista de dados é o novo emprego quente da economia.
Ainda assim, muito trabalho artesanal – o que os cientistas de dados chamam de “disputa de dados”, “munging de dados” e “trabalho de zelador de dados” – ainda é necessário. Cientistas de dados, de acordo com entrevistas e estimativas de especialistas, passam de 50% a 80% de seu tempo atolados neste trabalho mais mundano de coletar e preparar dados digitais indisciplinados, antes que possam ser explorados em busca de pepitas úteis.
“A disputa de dados é uma grande – e surpreendentemente – parte do trabalho”, disse Monica Rogati, vice-presidente de ciência de dados da Jawbone, cuja pulseira cheia de sensores e software monitoram atividade, sono e consumo de comida e sugere dicas de dieta e saúde com base nos números.
Várias startups estão tentando romper esses gargalos de big data desenvolvendo software para automatizar a coleta, limpeza e organização de dados díspares, que são abundantes, mas confusos. O moderno Oeste Selvagem de dados precisa ser um pouco domesticado para que possa ser reconhecido e explorado por um programa de computador.
“É um mito absoluto que você pode enviar um algoritmo sobre dados brutos e ter insights surgindo”, disse Jeffrey Heer, professor de ciência da computação na Universidade de Washington e cofundador da Trifacta, uma start-up com sede em San Francisco.
Timothy Weaver, o diretor de informações da Del Monte Foods, chama a situação difícil da disputa de dados de big data de “iceberg”, o que significa que a atenção está focada no resultado que é visto, e não em todo o trabalho invisível abaixo. Mas é um problema nascido da oportunidade. Cada vez mais, há muito mais fontes de dados para explorar que podem fornecer pistas sobre os negócios de uma empresa, disse o Sr. Weaver.
Na indústria de alimentos, explicou ele, os dados disponíveis hoje podem incluir volumes de produção, dados de localização sobre remessas, relatórios meteorológicos, vendas diárias dos varejistas e comentários de redes sociais, analisados em busca de sinais de mudanças no sentimento e na demanda.
O resultado, disse Weaver, é ser capaz de ver cada estágio de um negócio com mais detalhes do que no passado, para ajustar os planos de produtos e reduzir o estoque. “Quanto mais visibilidade você tem, mais decisões inteligentes você pode tomar”, disse ele.
Mas se o valor vem da combinação de diferentes conjuntos de dados, o mesmo acontece com a dor de cabeça. Os dados de sensores, documentos, a web e bancos de dados convencionais vêm em diferentes formatos. Antes que um algoritmo de software possa procurar respostas, os dados devem ser limpos e convertidos em uma forma unificada que o algoritmo possa entender.
Os formatos de dados são um desafio, mas também a ambigüidade da linguagem humana. Iodo, uma nova start-up de saúde, fornece aos consumidores informações sobre os efeitos colaterais e interações dos medicamentos. Suas listas, gráficos e descrições de texto são o resultado da combinação de dados de pesquisas clínicas, relatórios do governo e pesquisas online sobre a experiência das pessoas com medicamentos específicos.
Mas a Food and Drug Administration, o National Institutes of Health e as empresas farmacêuticas costumam aplicar termos ligeiramente diferentes para descrever o mesmo efeito colateral. Por exemplo, “sonolência”, “sonolência” e “sonolência” são usados. Um humano saberia que eles significam a mesma coisa, mas um algoritmo de software deve ser programado para fazer essa interpretação. Esse tipo de trabalho meticuloso deve ser repetido, uma e outra vez, em projetos de dados.
Os especialistas em dados tentam automatizar o máximo possível de etapas do processo. “Mas, na prática, por causa da diversidade de dados, você passa muito tempo sendo um zelador de dados, antes de chegar às coisas legais e sexy que o colocaram no campo em primeiro lugar”, disse Matt Mohebbi, um cientista de dados e cofundador da Iodine.
O desafio do big data hoje se encaixa em um padrão familiar na computação. Uma nova tecnologia surge e inicialmente é dominada por uma pequena elite. Mas com o tempo, engenhosidade e investimento, as ferramentas ficam melhores, a economia melhora, as práticas de negócios se adaptam e a tecnologia acaba sendo difundida e democratizada para o mainstream.
Em software, por exemplo, os primeiros programadores eram sacerdotes que entendiam o funcionamento interno da máquina. Mas a porta para a programação foi gradualmente aberta para mais pessoas ao longo dos anos, com linguagens de nível superior de Fortran a Java, e ferramentas ainda mais simples, como planilhas.
As planilhas tornaram a matemática financeira e a modelagem simples acessíveis a milhões de não especialistas em negócios. John Akred, diretor de tecnologia da Silicon Valley Data Science, uma empresa de consultoria, vê algo semelhante no mundo moderno dos dados, à medida que as ferramentas de software melhoram.
“Estamos testemunhando o início dessa revolução agora, de tornar esses problemas de dados abordáveis por um público muito maior”, disse Akred.
ClearStory Data, uma start-up em Palo Alto, Califórnia, faz um software que reconhece muitas fontes de dados, reúne-as e apresenta os resultados visualmente como gráficos, gráficos ou mapas preenchidos com dados. Seu objetivo é atingir um mercado mais amplo de usuários de negócios, além dos mestres de dados.
Normalmente, seis a oito fontes de dados entram em cada apresentação visual. Um varejista pode incluir dados de ponto de venda digitalizados, relatórios meteorológicos, tráfego da web, dados de preços de concorrentes, o número de visitas ao aplicativo de smartphone do comerciante e rastreamento de vídeo do tráfego do estacionamento, disse Sharmila Shahani-Mulligan, presidente-executiva de ClearStory.
“Você não pode fazer isso manualmente”, disse Shahani-Mulligan. “Você nunca vai encontrar cientistas e analistas de dados suficientes.”
A Trifacta é uma ferramenta para profissionais de dados. Seu software emprega tecnologia de aprendizado de máquina para encontrar, apresentar e sugerir tipos de dados que podem ser úteis para um cientista de dados ver e explorar, dependendo da tarefa em mãos.
“Queremos aliviar a carga do usuário, reduzir o tempo gasto na preparação de dados e aprender com o usuário”, disse Joseph M. Hellerstein, diretor de estratégia da Trifacta, que também é professor de ciência da computação na Universidade da Califórnia, Berkeley.
Paxata, uma start-up em Redwood City, Califórnia, está focada diretamente na automatização da preparação de dados – encontrar, limpar e combinar dados para que estejam prontos para serem analisados. Os dados refinados pela Paxata podem ser alimentados em uma variedade de ferramentas de software de análise ou visualização, escolhidas pelo cientista de dados ou analista de negócios, disse Prakash Nanduri, executivo-chefe da Paxata.
“Estamos tentando libertar as pessoas da disputa de dados”, disse Nanduri. “Queremos liberar seu tempo e evitar que fiquem cegos.”
Cientistas de dados enfatizam que sempre haverá algum trabalho prático na preparação de dados, e deveria haver.
A ciência de dados, dizem eles, é um processo passo a passo de experimentação.
“Você preparou seus dados para um determinado propósito, mas depois aprendeu algo novo e o propósito mudou”, disse Cathy O’Neil, cientista de dados da Escola de Pós-Graduação em Jornalismo da Universidade de Columbia, e coautora, com Rachel Schutt, de “Doing Data Science” (O’Reilly Media, 2013).
Ainda há muito progresso a ser feito para facilitar a análise de dados. “Nós realmente precisamos de ferramentas melhores para que possamos gastar menos tempo na disputa de dados e chegar ao material sexy”, disse Michael Cavaretta, um cientista de dados da Ford Motor, que usou a análise de big data para reduzir os níveis de estoque e orientar as mudanças no design do carro .
O Sr. Cavaretta conhece o trabalho da ClearStory, Trifacta, Paxata e outras start-ups da área. “Eu encorajaria essas start-ups a continuarem assim”, disse ele. “É um bom problema e um grande problema.”
Traduzido de: https://www.nytimes.com/2014/08/18/technology/for-big-data-scientists-hurdle-to-insights-is-janitor-work.html