La Ciencia de Datos es un proceso multidisciplinario responsable por transformar datos en información o en productos de información; y para ello, se integran varios conceptos de matemáticas, estadística, computación y conocimiento del negocio.
La ciencia de datos es transversal y aproxima las necesidades del negocio a las técnicas, de forma que incorpora las tecnologías que permiten manipular grandes volúmenes de datos, además de utilizar algoritmos avanzados de inteligencia artificial, Machine Learning y aprendizaje profundo para entregar las soluciones más adecuadas.
La conducción de un proyecto de Ciencia de Dados
La conducción de un proyecto en Ciencia de Dados involucra un equipo multidisciplinario para actuar en distintos frentes, como por ejemplo la arquitectura e ingeniería de los dados trabajados.
Esa etapa debe garantizar la disponibilidad de los dados para realizar su análisis, establecer su flujo, encontrar nuevas fuentes y llevar a cabo el gerenciamiento de esta información.
Otra etapa importante es el análisis y ciencia de dados, que debe proveer análisis descriptivo, prescriptivo y predictivo encontrando tendencias y patrones en esos dados, de forma que respondan a los problemas existentes en el negocio, utilizando data storytelling, elaboración de dashboards, análisis matemático y estadístico, y finalmente, el entrenamiento de algoritmos y el modelaje.
Finalmente, la ingeniería del Machine Learning es responsable por atribuir modelos específicos de Machine Learning para que atiendan al propósito para el cual fueron creados. O sea, integrar un modelo con las plataformas de la corporación de forma que se pueda acceder y consultar esta información.
Además de eso, involucra el acompañamiento del performance, el ajuste de hiper-parámetros y pruebas en sistemas de producción, tal como pueden ser las pruebas A/B.
¿Cuánto valen los dados para las corporaciones?
Las nuevas tecnologías hicieron que el volumen de dados creados y almacenados explotara, creando así, lo que llamamos y conocemos hoy como era del Big Data. Se calcula que la cantidad de datos almacenados en el mundo duplicará cada dos años, por lo tanto, la Ciencia de Datos se está volviendo cada vez más importante y promisora.
Muchas compañías están, literalmente, sentadas sobre tesoros de datos. Mientras tanto, generalmente esos datos son como diamantes en bruto sin tocar, pues sus riquezas surgen cuando conseguimos hacerlos interpretables y usarlos en la toma de decisiones o en productos.
El ciclo de un proyecto de Ciencia de Datos
El ciclo de un proyecto de Ciencia de Datos ocurre de forma no lineal y por interacciones que, dependiendo del framework de trabajo, pueden ser agrupadas en distintas fases. De forma general, consideramos 5 fases.
Lo primero que hay que hacer es entender cuál es el problema que buscamos solucionar. Además, es necesario definir un planeamiento y los posibles resultados del proyecto con el objetivo de que, al final, se haya alcanzado una posible solución. Desafortunadamente, no son raros los proyectos que no son diseñados para resolver la necesidad original, por eso es importante que el conocimiento técnico esté acompañado del conocimiento del negocio.
Lo más común en las organizaciones es tener datos en distintos formatos, fuentes, niveles de calidad y accesibilidad. De esa forma, la etapa de obtención y tratamiento de los dados suele tardar más y exigir un esfuerzo mayor.
Un término conocido entre los profesionales del área es “Trash In, Trash Out”, o sea, no importa la técnica que se aplique, si no se utilizan datos integrados y de calidad, no lograremos a alcanzar buenos resultados. Por ello, es necesario que comprenda y esté familiarizado con los dados, conocer sus orígenes y tratarlos con un enfoque en la solución de problemas de valores faltantes, aberrantes, corrompidos, distorsionados, incompatibles, duplicados entre otros tipos de problemas y errores.
Los datos de calidad permiten una mayor comprensión sobre su contenido que, a su vez, contribuye con la obtención de insights y con el desarrollo de modelos. Además, la comunicación de los datos debe ocurrir de forma constante para que el proyecto no se construya sobre una óptica equivocada. Es necesario explicar, de forma simple e intuitiva, el proceso y los resultados para los clientes (internos y externos) para que se evite el rechazo o la indiferencia a las previsiones y automatizaciones de decisiones y tareas.
La última etapa involucra el asegurar la utilidad del proyecto, es decir, ponerlo en práctica. Son dos las formas de lograr este objetivo: Utilizando los insights y aprendizajes para orientar decisiones estratégicas, o aplicando modelos de forma puntual o integrada a aplicaciones.
Potencial transformador de la Ciencia de Dados
Sea cual sea el contexto, siempre hay una aplicación para la Ciencia de Dados, como por ejemplo segmentación de clientes, previsión de ventas, clasificación de tareas, recomendaciones inteligentes, redes de relacionamientos, business intelligence, entre otras posibilidades.
La Ciencia de Datos tiene el potencial de transformar corporaciones. Por ejemplo, en la optimización de la cadena de abastecimiento estimando existencias y la demanda; en el combate a fraudes reconociendo actividades sospechosas; y en la mejora de las ventas y en la experiencia del usuario, sugiriéndole productos relevantes con base en sus históricos.
De esta forma, un equipo de Ciencia de Datos tiene un potencial para crear ventajas competitivas para la corporación, contribuyendo con la toma de decisiones más rápidas, informadas y que mejoren los productos y servicios.
Texto escrito por Ramom Ferreira, miembro del equipo de Ciencia de Dados de Argo Solutions.
¿Te ha ayudado este artículo? ¡Entonces no dejes de consultar otros artículos del blog, además de visitar nuestras redes sociales en los botones de abajo para conocer más sobre nosotros, nuestros productos y servicios! Si te ha quedado alguna duda, escríbenos acá.