Modelos Estadísticos Interpretables

Materia optativa para la Licenciatura en Ciencias de Datos y para la Lic., Prof. y Doc en Cs. Matemáticas (fue elevada a la comisión) a dictarse en la FCEyN durante el segundo bimestre de 2024. La materia depende del Instituto de Cálculo. Profesora: María Eugenia Szretter Noste (meszre@dm.uba.ar). Como materia de postgrado se denomina «Tópicos de Modelos Interpretables»

Motivación

En la actualidad existe un auge de algoritmos altamente eficientes desde el punto de vista predictivo. Sin embargo, estos carecen en su mayoría de la capacidad de identificar los mecanismos inherentes que producen esas buenas predicciones. En contraposición los métodos estadísticos tradicionales explicitan esos mecanismos en forma clara, pero no poseen la capacidad predictiva de los algoritmos del machine learning. Este curso procura brindar herramientas estadísticas para el modelado supervisado, tanto en clasificación como en regresión, que privilegian la capacidad explicativa e inferencial en el trabajo con datos. Las técnicas que veremos son útiles como metodologías en sí mismas y a la vez como herramientas complementarias al uso de técnicas de modelado complejo (tipo caja negra) para aumentar la capacidad interpretativa.

Horario

Lunes y miércoles de 13 a 17 horas en un aula a asignar. Las clases serán durante el segundo bimestre 2024, es decir, desde el lunes 13 de mayo (primera clase) hasta el miércoles 3 de julio, son 64 horas de cursada en total

Modalidad de cursada y correlativas

Las clases serán dos veces por semana, 4 horas de duración cada día. La primera parte de la clase (las primeras dos horas o dos horas y media) serán más bien teóricas, donde intentaremos presentar los temas del programa desde un punto de vista teórico y práctico, mostrando las aplicaciones a ejemplos con datos. La segunda parte de la clase será más práctica (la última hora y media) les estudiantes trabajarán en el labo de computación (si conseguimos aula) aplicando lo aprendido a resolver las listas de ejercicios, que serán discutidos en clase. Resolveremos ejercicios en R y se responderán consultas. Tendrán que matricularse por el campus de exactas ya que el material de la materia lo subiremos ahí periódicamente. Tiene por correlativa/requisito previo a la materia: Introduccion a la Estadística y Ciencia de Datos (LCD) o Estadística (Lic. en Mate)

Programa

1. Modelo lineal múltiple. Revisión de los conceptos básicos de Modelo Lineal. Análisis de casos especiales: interpretación del modelo y ajuste bajo casos particulares de covariables, predictores cualitativos con dos categorías y con más de dos categorías, interacción entre distintos tipos de variables, transformaciones polinomiales de las covariables, test para comparar dos medias como caso particular y el modelo de análisis de la varianza (ANOVA) de un factor como otro caso particular.
2. Diagnóstico de problemas potenciales del ajuste. Gráficos y otras herramientas de diagnóstico para detectar problemas de ajuste. Soluciones para la falta de linealidad y/o heteroscedasticidad. Mínimos cuadrados pesados. Estimación robusta. Comparación con mínimos cuadrados ordinarios. Colinealidad.
3. Selección de Modelos. Criterios para elegir el modelo óptimo. Muestra de entrenamiento y validación. Medidas de ajuste: coeficientes de determinación R²-ajustado, estadístico de Mallows Cp, AIC y BIC. Selección de modelos por remuestreo: validación cruzada y bootstrap. Compromiso sesgo-varianza.
4. Técnicas de regularización. Métodos de Penalización. Comparación de distintas penalizaciones entre sí y con mínimos cuadrados ordinarios. Selección del parámetro de suavizado usando validación cruzada. Interpretación de la propiedad oráculo.
5. Árboles de clasificación y regresión. Métricas involucradas. Criterio de parada. Poda y penalización por complejidad. Arboles vs. Modelo lineal. Modelos predictivos usando el paquete CARET (Classification And REgression Training): conjunto de funciones para ajustar modelos predictivos. El paquete contiene herramientas para el pre-procesamiento de los datos, ajuste mediante remuestreo y la estimación de la importancia de cada variable. Métodos de agregación: Bagging, Random Forests y Boosting.
6. Generalización del modelo lineal. Introducción a modelos lineales generalizados. Modelos lineales de efectos mixtos. Efectos aleatorios. Ajuste del modelo de efectos aleatorios. Evaluación del modelo ajustado. Cómo evaluar los términos de efectos fijos. Modelos de efectos mixtos para mediciones repetidas. Predicciones de la respuesta y de los efectos aleatorios.
7. Interpretación. ¿Cómo y cuánto aportan las variables incluidas en un modelo a su interpretación? Metodología SHAP (Shapley Additive exPlanations) para intentar dar una explicación a la predicción que hacen modelos complejos (de “caja negra”). Metodología LIME (Local Interpretable Model-gnostic Example). Introducción de la función de pérdida local y medidas de complejidad del modelo explicativo.

Bibliografía

Draper, N. R., y Smith, H. (1998). Applied Regression Analysis, Third Edition. Wiley series in probability and statistics.
Seber, G. A. F., Lee A. J. (2003). Linear Regression Analysis, 2nd Edition, Wiley Series in Probability and Mathematical Statistics.
Kutner, M. H., Nachtsheim, C., Neter, J., y Li, W. (2005). Applied linear statistical models. McGraw-Hill Irwin.
James, G., Witten, D., Hastie, T., y Tibshirani, R. (2013). An introduction to statistical learning (Vol. 112). Springer.
Weisberg, S. (2005). Applied linear regression (3ra. edición). John Wiley & Sons.
Hansen, Bruce E. (2022) Econometrics. Princeton University Press.
Pinheiro J.C., Bates D. M. (2000). Mixed-Effects Models in S and S-PLUS. Springer, New York.
Stasinopoulos, M. D., Rigby, R. A., Heller, G. Z., Voudouris, V., De Bastiani, F. (2017). Flexible regression and smoothing: using GAMLSS in R. CRC Press.
Kuhn, M., Johnson, K. (2018). Applied predictive modeling. Springer.
Molnar, C. (2022). Interpretable Machine Learning: A Guide for Making Black Box Models Explainable (2nd ed.). christophm.github.io/interpretable-ml-book/
Lundberg, S. M., Su-In L. A unified approach to interpreting model predictions. Advances in Neural Information Processing Systems (2017).
Ribeiro, M. T., Singh, S., Guestrin, C. Why should I trust you?: Explaining the predictions of any classifier. Proceedings of the 22nd ACM SIGKDD international conference on knowledge discovery and data mining. ACM (2016).

Modalidad de aprobación

La evaluación será escrita (tipo parcial teórico práctico, con ejercicios parecidos a los que iremos resolviendo en clases) a mitad o 3/4 del bimestre. Posiblemente deban entregar algún/os ejercicio de la práctica. Los restantes contenidos se evaluarán a través de una exposición oral en grupo de a dos, en la que cada grupo presentará algún tema a elección. La idea es que les estudiantes escuchen las exposiciones de los distintos grupos ya que estas serán sobre temas no desarrollados en el curso y serán a finales del bimestre.