A Ciência de Dados é um processo multidisciplinar responsável por transformar dados em informações ou produtos de informação; e para isso, envolve vários conceitos de matemática, estatística, computação e conhecimento do negócio.
Ela é transversal e aproxima as necessidades de negócio às técnicas, de forma que incorpora as tecnologias que permitem manipular grandes volumes de dados e utiliza algoritmos avançados de inteligência artificial, aprendizado de máquina e aprendizagem profunda para entregar soluções de negócios.
A condução de um Projeto de Ciência de Dados
A condução de um projeto em Ciência de Dados envolve uma equipe multidisciplinar para atuar em diferentes frentes, como por exemplo a arquitetura e engenharia dos dados trabalhados. Esta etapa deve garantir a disponibilidade dos dados para ingestão em análises, estabelecer seu o fluxo, encontrar novas fontes e realizar o gerenciamento de tais dados.
Outra etapa importante é a análise e ciência de dados, que deve atuar de forma a prover análises descritivas, prescritivas e preditivas encontrando tendências e padrões nos dados que visam responder a problemas do negócio, utilização de data storytelling, elaboração de dashboards, análises matemáticas e estatísticas e finalmente o treino de algoritmos e a modelagem.
Por fim, a engenharia de machine learning é responsável por colocar modelos de machine learning para atender ao propósito para o qual eles foram criados, ou seja, integrar o modelo com as plataformas da corporação de forma que possa ser acessado e consultado. Além disso, envolve o acompanhamento de performance, o ajuste de hiper parâmetros e testes em sistemas de produção como os testes A/B.
O valor dos dados para as empresas
As novas tecnologias fizeram com que o volume de dados criados e armazenados explodisse, criando assim, o que chamamos de era do Big Data. Estima-se que a quantidade de dados armazenados no mundo dobrará a cada dois anos, logo, a ciência de dados tem se tornado um campo cada vez mais promissor.
Muitas empresas estão literalmente sentadas sobre tesouros de dados. Entretanto, geralmente esses dados são como gemas brutas e intocadas, pois suas riquezas surgem quando conseguimos fazê-los interpretáveis e usá-los na tomada de decisões ou em produtos.
O ciclo de um Projeto de Ciência de Dados
O ciclo de um projeto de Ciência de Dados ocorre de forma não linear por iterações que, a depender do framework de trabalho, podem ser agrupadas em diferentes fases. Consideremos basicamente 5 fases.
O primeiro ponto é entender o problema ou o ponto de dor a ser sanado, além disso é necessário definir um planejamento e os possíveis resultados do projeto a fim de que ao final tenha-se atingido uma possível solução. Infelizmente, não são raros projetos que não são desenhados de forma a resolver a necessidade original, por isso é necessário o entendimento técnico acompanhado do conhecimento do negócio.
O mais comum nas organizações é ter dados em diferentes formatos e em diferentes fontes, e níveis de qualidade e de acessibilidade. Assim, a etapa de obtenção e tratamento dos dados costuma ser a mais demorada e trabalhosa do projeto. Um jargão famoso no ramo é “TRASH IN, TRASH OUT!”, ou seja, não importa a técnica utilizada, se não utilizarmos dados integrados e de qualidade não conseguiremos bons resultados. Assim, é necessário entender e se familiarizar com os dados, conhecer suas origens e tratá-los resolvendo problemas de valores faltantes, aberrantes, corrompidos, distorcidos, incompatíveis, duplicados e outros erros e problemas.
Com dados de qualidade pode-se gerar maior compreensão deles e começar a obtenção de insights e a desenvolver modelos. Além disso, a comunicação dos dados deve ocorrer de forma constante para que não se desenvolva o projeto sobre premissas erradas. É preciso explicar de maneira simples e intuitiva o processo e os resultados para os clientes (internos ou externos) de forma a evitar a rejeição ou aversão às previsões ou automatizações de decisões e tarefas.
A última etapa envolve garantir a utilidade do projeto, em outras palavras, colocá-lo em prática. São duas as formas de se atingir este objetivo, utilizar os insights e aprendizados para orientar decisões estratégicas ou servir modelos de forma pontual ou integrada a aplicações.
Potencial transformador da Ciência de Dados
Seja qual for o contexto, sempre há uma aplicação para Ciência de Dados, como segmentação de clientes, previsão de vendas, classificação de tarefas, recomendações inteligentes, redes de relacionamentos, business intelligence, entre outras.
A Ciência de Dados tem potencial de transformar negócios. Por exemplo, na otimização da cadeia de abastecimento prevendo estoque e demanda, na prevenção de fraudes reconhecendo comportamentos suspeitos e atitudes fora de conformidade e na melhora das vendas e experiência do usuário, recomendando itens relevantes aos clientes com base em seus históricos. Assim, um time de Ciência de Dados tem potencial para criar vantagens competitivas para a corporação, contribuindo para tomadas de decisões de negócios mais rápidas e informadas e refinando produtos e serviços.
Texto escrito por Ramom Ferreira, membro do Departamento de Ciência de Dados da Argo Solutions.