Saltar al contenido

Diplomatura en Ciencia de Datos

Modalidad: online. Las clases teóricas y las prácticas se emiten por videoconferencia en vivo y son interactivas. Las emisiones se guardan para repaso de los estudiantes y tienen soporte de material PDF. Trabajos prácticos sobre casos reales
Carga Horaria: 180 Hs
Duración: 18 semanas
INICIA el 22 de JUNIO 2020
Costo total:
Matrícula $ 9.900 y dos cuotas de $ 7.500
Las cuotas se abonan a los 30 y 60 días de iniciado el curso. Estas cuotas no tienen interés adicional.
También podés financiar con tu tarjeta de crédito cada uno de estos aranceles
La matrícula ya tiene incluida una bonificación especial del 50 % para promover el trabajo y el estudio a distancia en este período de pandemia

$19.800 $9.900 

Producto disponible

Descripción

Programa de estudio de la Diplomatura en Ciencia de Datos

La Diplomatura de Ciencias de Datos (Data Science) está pensado como un primer escalón en la formación de científicos de datos.
Pueden hacerla tanto los que persigan una carrera de tipo gerencial y quieran conocer las posibilidades de las herramientas como los que quieran utilizarlas con sus propias manos.
Con la Diplomatura de Ciencia de Datos aprenderás los principales algoritmos de aprendizaje supervisado como árboles de decisión, redes neuronales, reglas de asociación, bayes ingenuo, bosques aleatorios, y no supervisado como agrupamiento. Además descubrirás cómo usar series temporales, el método de Montecarlo, los algoritmos genéticos, y las técnicas de regresión, minería de textos y Big Data.
Las aplicaciones podrás utilizarlas en múltiples campos, como negocios, salud, recursos humanos, cobranzas, finanzas, publicidad, marketing, procesos de servicios y de producción, urbanismo, políticas públicas, etc.

Programa analítico

Unidad 1: Introducción

Introducción a la Ciencia de Datos
Niveles a los que opera la ciencia de datos
Introducción a Data Warehouse
Introducción a Data Mining
Introducción a Knowledge Discovery
Introducción a Herramientas OLAP y Tableros de comando
Repaso de herramientas disponibles
Taxonomía de las competencias de un científico de datos
Primeros pasos en R
Instalando y cargando paquetes en R

Unidad 02: Diseño y construcción de un DW

Diferencias entre los DW y los OLTP
Tipos de datos y soportes
Dimensiones y jerarquías
Estimación de recursos y tiempos según tipos de datos
Ejemplos de staging
Interacción entre equipos (DB-ETL-Soporte-FrontEnd-Usuarios)
Ejercicios de diseño de DW

Unidad 3: Tests básicos

Repaso de conceptos de probabilidad y estadística
Test de Hipótesis
Correlaciones
AB Test
Cálculo de correlaciones en R con cor
Funciones de distribución en R
Histogramas en R
Gráficos de líneas en R
Gráficos de áreas en R

Unidad 4: Regresiones

Regresión Lineal
Regresión polinómica
Regresión exponencial y logarítmica
Regresión de dos variables
Cálculo de regresiones en R con lm
Cálculo de regresiones logísticas en R con glm

Unidad 5: Arboles de decisión

Algoritmo básico en Excel
División en entrenamiento y prueba
Uso de Rpart y cp
Predicción y valoración de la solución
Uso de Party
Aplicación al problema del call center

Unidad 6: “Clusters”

Algoritmo básico en Excel
Uso de kmeans
Ejemplo de aplicación real
Otros algoritmos de agrupamiento en R
Ejercicio de aplicación de agrupamiento de mascotas

Unidad 7: Reglas de Asociación

Algoritmo básico en Access
División en entrenamiento y prueba
Uso de arules en R
Ejemplo de una aplicación real votación de reglas
Ejemplo de una aplicación real a datos de ventas en supermercados

Unidad 8: Redes Neuronales

Algoritmo básico en Excel
División en entrenamiento y prueba
Uso de neuralnet
Predicción y valoración de la solución
Discusión del problema de legibilidad de los resultados desde el negocio
Competencia entre árboles y redes en un caso concreto

Unidad 9: Algoritmos genéticos

Algoritmo básico en Excel
Discusión del tipo de problemas en los que se aplica
Discusión de otros mecanismos de optimización
Implementación en R del uso de algoritmos genéticos como
Valores reales
Binarios
Permutaciones

Unidad 10: Series temporales

Taxonomía
Separación de componentes
Predicciones
ARIMA implementado en R
Predicción en series con un único período
Predicción en series con múltiples períodos
Predicción en series con períodos variables: renormalización

Unidad 11: Método de Simulación de Montecarlo

Algoritmo básico en Excel
Discusión de la utilidad del método
Comparación con el análisis de escenarios
Ejemplo de una aplicación real
Ejemplo simple implementado en R

Unidad 12: Minería de textos

Clasificación supervisada de piezas de texto
Construcción de una red semántica
Discusión de las posibilidades de reconocimiento de voz
Ejemplos de aplicación real del algoritmo de clasificación
Aplicación a la detección de sentimientos

Unidad 13: Diseño y construcción de ETL

Procesos ETL: generalidades, buenas prácticas, esquemas de ETL
Detalles de cada etapa: extracción, limpieza, normalización, transformación, carga
Estrategias de update
Ejercicios de diseño de ETL para la carga inicial
Ejercicios de diseño de ETL para la actualización
Licencia, descarga e instalación de Open Refine
Uso general como herramienta de limpieza de datos
Pre-procesado de los datos
Casos de interés y ejemplos
Licencias, descarga e instalación de Pentaho-Kettle
Pentaho Kettle: funciones, características, utilización
Auditoría y documentación
Ejemplos de uso

Unidad 14: Bayes Ingenuo

Implementación en Excel
Ejemplo de aplicación en R
Comparación de 4 algoritmos predictivos (Bayes ingenuo, árboles, redes neuronales y regression logística)

Unidad 15: Random Forest

Descripción conceptual del método
Paquete randomForest
Ejemplo de aplicación
Comparación con otras técnicas

Unidad 16: Métodos bayesianos avanzados

Descripción conceptual del método:
Regresión lineal bayesiana
Regresión logística bayesiana
Inferencia bayesiana
Red bayesiana
Ejemplos de aplicación
Paquete BAS
Paquete brms
Paquete arm
Paquete bnlearnd
Comparación con otras técnicas

Unidad 17: Máquina de soporte vectorial

Descripción conceptual del método
Paquete e1071
Ejemplo de aplicación
Comparación con otras técnicas

Unidad 18: “Big Data”

¿Qué es Big Data?
¿Cuándo usar Big Data?
¿Cómo armar una infraestructura para Hadoop?
Ejemplo de una aplicación de Map Reduce: wordcount
Como evitar Hadoop
Pig
Hive
Cassandra

Equipo Docente de la Diplomatura en Ciencia de Datos:

Ignacio Urteaga

Susana Sarmiento

Laura Siri

Guillermo Garófalo

Beca

Quién y cómo puede estudiar Ciencia de Datos

¿quien y como puede estudiar Ciencia de datos?