All Articles

Que es la ciencia de datos

no_vision_no_hope by Butcher

“El hombre está condenado a ser libre; porque una vez arrojado al mundo, él es responsable de todo lo que hace” Jean-Paul Sartre

Tomar decisiones es inevitable, hasta no decidir es decidir, y con cada decisión tomada nos definimos. Por esto, es fundamental entender el proceso por el cual llegamos a nuestras decisiones. Por lo general pensamos rápido, usando la intuición y técnicas heurísticas, que si bien son ágiles, no son óptimas y suelen fallar. Tomar decisiones basadas en datos, es pensar metodológicamente, tener un proceso, en donde recopilamos evidencias y las usamos para llegar a un mejor resultado.

El primer paso es definir un objetivo específico, medible y realista. El segundo paso es establecer métricas relevantes para medir nuestro progreso. Éstas nos ayuda a entender dónde estamos y por ende, que decisiones tomar para acercarnos a nuestro objetivo, a su vez, las usamos para evaluar el efecto de nuestras acciones y así poder calibrarlas de manera correcta.

Hay que aclarar, que consultar a los datos no es consultar una bola de cristal, más bien, es tener un mapa que nos indica dónde estamos y dónde queremos ir. En base a esto, podemos trazar una trayectoria exitosa.

Este mapa es algo que se crea, en un proceso dinámico y cíclico, que constantemente se está refinando. El ciclo se inicia estableciendo preguntas a responder, estas preguntas determinan los datos a recopilar. Una vez que se tienen los datos, estos se usan para visualizar, analizar y modelar. Con la finalidad de responder nuestra pregunta inicial. La respuesta es un insight, una revelación la cual es usada para la toma de decisiones. La respuesta y el análisis a su vez, motiva la generación de nuevas preguntas, que desencadenan las búsqueda de más datos.

El sistema consiste en un ciclo que se retroalimenta a sí mismo, donde cada iteración incrementa la complejidad del análisis y el volumen de datos. Esto a su vez nos permite responder preguntas mas complejas, como también generar modelos estadísticos de aprendizaje, también conocido como inteligencia artificial, que son útiles para predecir, de manera probabilística lo que puede pasar en el futuro basado en el pasado. Además, nuestra base de datos, al ir creciendo, podemos verla como un lago de datos, donde podemos pescar por revelaciones.

Son tres los grandes desafíos en la implementación de dicho sistema. El primero tiene relación con la generación de preguntas e hipótesis. Estas deben ser realizadas por un equipo, interdisciplinario, formado por expertos en el dominio, generalistas y el científico de datos. El segundo desafío es técnico y consiste en la recopilación, curación y mantenimiento de los datos, como la generación de los modelos. Por último, el tercer desafío es cultural, e involucra un cambio fundamental en la manera de tomar de decisiones. Si se hacen preguntas, se recopila información y se hace un análisis, sería inútil no utilizarlas en la toma de decisiones.