Introducción a la ciencia de datos con Python
Destinatarixs: Estudiantes avanzados/as y Graduados/as de las carreras de Economía, Economía Política, Economía Industrial, Profesorado de Economía y otras carreras en ciencias sociales de la UNGS y/o de otras universidades. Investigadores/as Docentes y No Docentes de la UNGS.
ARANCELADO PARA EXTERNOS/AS
Requisitos de Ingreso: Haber cursado y aprobado una materia de Estadística introductoria. Deseables: conocimientos de Econometría y lenguajes de programación.
Modalidad: Virtual
Docentes: Suster, Mateo Ezequiel, Molina, Marcelo Fernando.
Contenidos
Módulo 1. Introducción
- ¿Qué es la ciencia de datos? La cuarta revolución industrial y el origen del Big Data.
- El camino desde la estadística hacia la computación: ciencia de datos como disciplina.
- Machine Learning: ¿es sólo estadística para el big data?
- Elementos básicos de programación. ¿Qué es Python?
- Tipos de datos
- Manipulación de listas
- Estructuras de control
- Funciones
- Módulos
Módulo 2. Manipulación de datos
- Base de datos . Pipeline del procesamiento de datos
- Diferencias entre Data Lake y Data Warehouse
- Base de datos, DBMS y motores de base de datos
- Tipos de bases de datos
- Modelo relacional e. SQL. Sintaxis básica
- Ejecución de queries con SQLite
- Dataframes. Creación y carga de datos con Pandas
- Indexing
- Pivot table and join
- Manipulación de variables. Agrupación y agregación
- Series de tiempo: presentación y tratamiento
- Preprocesamiento y análisis exploratorio de datos . Limpieza, integración y preparación de los datos
- Análisis estadístico descriptivo
- Manipulación de datos faltantes
- Detección de outliers
- Feature engineering
- APIs . Introducción a las APIs
- Protocolos básicos
- Casos prácticos de APIs con datos de series de tiempo (datos.gob.ar, World Bank, FRED, etc.)
Módulo 3. Visualización de datos
- Visualización de datos. Cómo hacer una visualización efectiva. Ejemplos históricos
- Nociones de graficación (forma, color, tamaño, color).
- Tipos de gráficos
- Creación de gráficos con Pandas
- Utilización de otras librerías (Matplotlib, Seaborn y Plotly)
Módulo 4. Introducción al aprendizaje automático
- Introducción al modelado estadístico. Modelos supervisados básicos: regresión lineal.
- Estimación, interpretación y validación (medidas de ajuste, pruebas de hipótesis, diagnósticos)
- Trade-off sesgo varianza y sobreajuste (overfitting)
- Medición de errores en train y testing
- Regresión con regularización
- Modelos de Machine Learning (supervisado). Tipos de aprendizaje
- El ciclo de vida de un modelo de machine learning
- Tuneo de hiperparámetros
- Técnicas de validación cruzada
- Clasificadores basados en árboles de decisión
- Algoritmos de ensamble
- Aprendizaje no supervisado. Reducción de la dimensionalidad
- Clustering
Inscripciones
Inscripciones: On line hasta el 01 de febrero de 2023 - Cupos completos
Fecha de Inicio: 3 de febrero de 2023
Fecha de Finalización: 24 de febrero de 2023
Días y horarios de cursada:
3 de febrero de 18.30 a 21.30 hs
6 de febrero de 18.30 a 21.30 hs
8 de febrero de 18.30 a 21.30 hs
10 de febrero de 18.30 a 21.30 hs
13 de febrero de 18.30 a 21.30 hs