Saltar al contenido
Instituto de ciencia de datos

Diplomatura en Ciencia de Datos

Modalidad: Diplomatura online

Carga Horaria: 180 Hs

Duración: 18 semanas

UTN

Inicia en enero 2020 Inscripción abierta – Cupos limitados

$24.900

Producto disponible

Categorías: , Etiqueta:

Descripción

Programa de estudio de la Diplomatura en Ciencia de Datos

La Diplomatura de Ciencias de Datos te resultará de utilidad si querés descubrir en qué consiste la ciencia de datos y nunca hiciste nada.
Esta diplomatura te mostrará aplicaciones concretas de los algoritmos más difundidos y las experiencias reales de uso de cada uno.
Al completarla podrás aplicar estos algoritmos a situaciones reales para optimizar tus ventas, planificar tus recursos, extraer información de textos, predecir tu demanda, entre otras muchas cosas.

Esta Diplomatura está pensado como un primer escalón en la formación de científicos de datos.
Pueden cursarlo tanto los que persigan una carrera de tipo gerencial y quieran conocer las posibilidades de las herramientas como los que quieran utilizarlas con sus propias manos.
No hacen falta conocimientos previos de programación, matemáticas o bases de datos pero resultará más sencillo para los participantes realizar primero los cursos correspondientes si no cuentan con los conocimientos equivalentes.

Curso de Programación Lógica
Diplomatura en Base de Datos

Programa analítico de la Diplomatura en Ciencia de Datos

Unidad 1: Introducción
– Introducción a la Ciencia de Datos
– Niveles a los que opera la ciencia de datos
– Introducción a Data Warehouse
– Introducción a Data Mining
– Introducción a Knowledge Discovery
– Introducción a Herramientas OLAP y Tableros de comando
– Repaso de herramientas disponibles
– Taxonomía de las competencias de un científico de datos
– Primeros pasos en R
– Instalando y cargando paquetes en R

Unidad 02: Diseño y construcción de un DW
– Diferencias entre los DW y los OLTP
– Tipos de datos y soportes
– Dimensiones y jerarquías
– Estimación de recursos y tiempos según tipos de datos
– Ejemplos de staging
– Interacción entre equipos (DB-ETL-Soporte-FrontEnd-Usuarios)
– Ejercicios de diseño de DW

Unidad 3: Tests básicos
– Repaso de conceptos de probabilidad y estadística
– Test de Hipótesis
– Correlaciones
– AB Test
– Cálculo de correlaciones en R con cor
– Funciones de distribución en R
– Histogramas en R
– Gráficos de líneas en R
– Gráficos de áreas en R

Unidad 4: Regresiones
– Regresión Lineal
– Regresión polinómica
– Regresión exponencial y logarítmica
– Regresión de dos variables
– Cálculo de regresiones en R con lm
– Cálculo de regresiones logísticas en R con glm

Unidad 5: Arboles de decisión
– Algoritmo básico en Excel
– División en entrenamiento y prueba
– Uso de Rpart y cp
– Predicción y valoración de la solución
– Uso de Party
– Aplicación al problema del call center

Unidad 6: “Clusters”
– Algoritmo básico en Excel
– Uso de kmeans
– Ejemplo de aplicación real
– Otros algoritmos de agrupamiento en R
– Ejercicio de aplicación de agrupamiento de mascotas

Unidad 7: Reglas de Asociación
– Algoritmo básico en Access
– División en entrenamiento y prueba
– Uso de arules en R
– Ejemplo de una aplicación real votación de reglas
– Ejemplo de una aplicación real a datos de ventas en supermercados

Unidad 8: Redes Neuronales
– Algoritmo básico en Excel
– División en entrenamiento y prueba
– Uso de neuralnet
– Predicción y valoración de la solución
– Discusión del problema de legibilidad de los resultados desde el negocio
– Competencia entre árboles y redes en un caso concreto

Unidad 9: Algoritmos genéticos
– Algoritmo básico en Excel
– Discusión del tipo de problemas en los que se aplica
– Discusión de otros mecanismos de optimización
– Implementación en R del uso de algoritmos genéticos como
o Valores reales
o Binarios
o Permutaciones

Unidad 10: Series temporales
– Taxonomía
– Separación de componentes
– Predicciones
– ARIMA implementado en R
– Predicción en series con un único período
– Predicción en series con múltiples períodos
– Predicción en series con períodos variables: renormalización

Unidad 11: Método de Simulación de Montecarlo
– Algoritmo básico en Excel
– Discusión de la utilidad del método
– Comparación con el análisis de escenarios
– Ejemplo de una aplicación real
– Ejemplo simple implementado en R

Unidad 12: Minería de textos
– Clasificación supervisada de piezas de texto
– Construcción de una red semántica
– Discusión de las posibilidades de reconocimiento de voz
– Ejemplos de aplicación real del algoritmo de clasificación
– Aplicación a la detección de sentimientos

Unidad 13: Diseño y construcción de ETL
– Procesos ETL: generalidades, buenas prácticas, esquemas de ETL
– Detalles de cada etapa: extracción, limpieza, normalización, transformación, carga
– Estrategias de update
– Ejercicios de diseño de ETL para la carga inicial
– Ejercicios de diseño de ETL para la actualización
– Licencia, descarga e instalación de Open Refine
– Uso general como herramienta de limpieza de datos
– Pre-procesado de los datos
– Casos de interés y ejemplos
– Licencias, descarga e instalación de Pentaho-Kettle
– Pentaho Kettle: funciones, características, utilización
– Auditoría y documentación
– Ejemplos de uso

Unidad 14: “Big Data”
– ¿Qué es Big Data?
– ¿Cuándo usar Big Data?
– ¿Cómo armar una infraestructura para Hadoop?
– Ejemplo de una aplicación de Map Reduce: wordcount
– Como evitar Hadoop
o Pig
o Hive
o Cassandra