Introducción a la ciencia de datos con Python

Destinatarixs: Estudiantes avanzados/as y Graduados/as de las carreras de Economía, Economía Política, Economía Industrial, Profesorado de Economía y otras carreras en ciencias sociales de la UNGS y/o de otras universidades. Investigadores/as Docentes y No Docentes de la UNGS.

ARANCELADO PARA EXTERNOS/AS

Requisitos de Ingreso: Haber cursado y aprobado una materia de Estadística introductoria. Deseables: conocimientos de Econometría y lenguajes de programación.

Modalidad: Virtual

Docentes: Suster, Mateo Ezequiel, Molina, Marcelo Fernando.

Contenidos

Módulo 1. Introducción

¿Qué es la ciencia de datos? La cuarta revolución industrial y el origen del Big Data.
El camino desde la estadística hacia la computación: ciencia de datos como disciplina.
Machine Learning: ¿es sólo estadística para el big data?
Elementos básicos de programación. ¿Qué es Python?
Tipos de datos
Manipulación de listas
Estructuras de control
Funciones
Módulos

Módulo 2. Manipulación de datos

Base de datos . Pipeline del procesamiento de datos
Diferencias entre Data Lake y Data Warehouse
Base de datos, DBMS y motores de base de datos
Tipos de bases de datos
Modelo relacional e. SQL. Sintaxis básica
Ejecución de queries con SQLite
Dataframes. Creación y carga de datos con Pandas
Indexing
Pivot table and join
Manipulación de variables. Agrupación y agregación
Series de tiempo: presentación y tratamiento
Preprocesamiento y análisis exploratorio de datos . Limpieza, integración y preparación de los datos
Análisis estadístico descriptivo
Manipulación de datos faltantes
Detección de outliers
Feature engineering
APIs . Introducción a las APIs
Protocolos básicos
Casos prácticos de APIs con datos de series de tiempo (datos.gob.ar, World Bank, FRED, etc.)

Módulo 3. Visualización de datos

Visualización de datos. Cómo hacer una visualización efectiva. Ejemplos históricos
Nociones de graficación (forma, color, tamaño, color).
Tipos de gráficos
Creación de gráficos con Pandas
Utilización de otras librerías (Matplotlib, Seaborn y Plotly)

Módulo 4. Introducción al aprendizaje automático

Introducción al modelado estadístico. Modelos supervisados básicos: regresión lineal.
Estimación, interpretación y validación (medidas de ajuste, pruebas de hipótesis, diagnósticos)
Trade-off sesgo varianza y sobreajuste (overfitting)
Medición de errores en train y testing
Regresión con regularización
Modelos de Machine Learning (supervisado). Tipos de aprendizaje
El ciclo de vida de un modelo de machine learning
Tuneo de hiperparámetros
Técnicas de validación cruzada
Clasificadores basados en árboles de decisión
Algoritmos de ensamble
Aprendizaje no supervisado. Reducción de la dimensionalidad
Clustering