Principales Definiciones en Data Science

Mencionaremos las principales definiciones de Data Science. Utilizamos bases de datos, hablamos de estadística casi de manera intercambiable de inteligencia de negocios, analytics, minería de datos, construimos almacenes de datos. Nos maravillamos por el Machine Learning o hablamos de ciencia de datos o big data.

Sin embargo no siempre comprendemos donde empieza y donde termina cada uno de estos conceptos. Definiciones que escuchamos muy seguido y no siempre están claros, o no los utilizamos bien. Nos proponemos a aclarar la situación reconociendo a los múltiples conceptos que abordan el tema.

Data Science: múltiples definiciones conceptuales

Estadísticas
Bases de Datos
Data Warehouse
Inteligencia de Negocios
Data Mining
Analytics
Machine Learning
Big Data
Data Science

Estadísticas

Las estadísticas son una rama de la matemática. La estadística descriptiva consiste en: a partir de un conocimiento de un universo, resumir ese conocimiento en unos pocos números. El riesgo es creerse que es lo mismo reemplazar al universo por el promedio y eso es falso. Por ejemplo si para ahorrar en una familia calculamos el numero promedio de talle de calzados que le corresponde a una familia y van a comprar todos los zapatos del mismo número. Ni siquiera se podrá decir que estarán cómodos, probablemente estén todos incomodos con dichos talles.

La inferencia estadística es la parte difícil de las estadísticas, parte del conocimiento de una muestra aleatoria del universo y a partir del conocimiento de esa muestra quiere predecir cuales son los números que resumen al universo. Del promedio de una muestra deseo obtener el promedio del universo. Siempre vamos a tener márgenes de incertidumbre pero es particularmente útil. Nos va a permitir de una manera no trivial hacer una predicción del futuro siempre incierta en la búsqueda de extender los conocimientos.

Para hacer estadística necesitamos datos y ¿Dónde guardamos esos datos?

Bases de Datos

Los datos se guardan en bases de datos. Tenemos un producto maduro y distribuido que son las bases de datos relacionales, son grandes repositorios de información cada día mas potentes.

Por otro lado el elemento emergente, desafiante que trata de extender el modelo relacional, mas allá de la frontera inicial, las famosas bases noSQL. Lo que significa que en principio permite realizar las mismas acciones que realizamos con SQL pero busca aumentar dichas posibilidades.

Data Warehouse

El almacén de datos es donde guardamos los datos limpios. Cuando uno incorpora datos a través de la operación cotidiana esos datos se van cargando con muchas falsedades y problemas propios del proceso de carga manual. a medida que se van acumulando capas y capas de datos tal vez la carga no se realiza consistentemente. Por eso mismo al pasar los datos al almacén se debe pasar limpios. Si trato de hacer análisis sobre datos sucios lo mas probable es que esa suciedad deforme el resultado. Si entra basura sale basura.

Las bases de datos relacionales que usamos para operar están optimizadas para responder rápidamente a las consultas

Inteligencia de negocios

Juntando el almacén de datos hago estadísticas y presento los resultados, seguramente de forma grafica, y esta apuntado a generar análisis simples de correlaciones, dependencias, variaciones para que los usuarios de tipo ejecutivo puedan buscar las causas. Esto puede ser no trivial en los entornos que las causas son múltiples. Para trabajar con eso aparecen las herramientas de minerías de datos.

Data Mining

Las herramientas de minería de datos se encargan de agarrar algoritmos establecidos seguramente ya empaquetados. Aplicamos a los datos limpios y tratamos de descubrir patrones de comportamiento que nos permitan hacer predicciones. Predicciones que siempre y cuando están buscando algún tipo de ganancia en el futuro.

Analytics

Al concepto de minería de datos se le suma la parte de hacer la limpieza de los datos y el análisis exploratorio. El análisis exploratorio es un análisis previo a construir un modelo para tomar un conocimiento intimo de los datos. Poder saber los limites, las dispersiones, las correlaciones a simple vista de manera sirvan como marco de las cosas mas complejas que encuentre. Analytics entonces incluye a la minería de datos.

Machine Learning

Es el nombre que le damos a los algoritmos que usamos dentro de Data Mining y Analytics para detectar patrones. Están metidos ahí adentro.

Big Data

El concepto de big data es un concepto de frontera. Están en el limite por el volumen o la complejidad, ya sea de la estructura de los datos o en los formatos de esos datos. El limite con Big Data es siempre móvil porque los servidores de las bases de datos relacionales y los servidores de los NoSQL se están forzando permanentemente para poder procesar mas información tanto desde el software, como en el hardware. Por eso los limites se van moviendo.

Data Science

El concepto marco de Data Science utiliza todas las anteriores definiciones conceptuales. Además de esto como si fuera poco, va a requerir por parte del Data Scientist que sepa de programación, que entienda el negocio, que tenga la capacidad para comunicar los resultados de manera clara y sencilla.