Maestría en Ciencia de Datos
Permanent URI for this collection
Browse
Browsing Maestría en Ciencia de Datos by Issue Date
Results Per Page
Sort Options
- ItemMarcas heurísticas con deep learning(2026) Wolinsky, Matias UrielEn el contexto de la prevención del fraude transaccional, las decisiones de aprobación o rechazo de pagos se determinan mediante modelos de Machine Learning supervisados y reglas de negocio. Una limitación fundamental es que el estado final de las transacciones rechazadas permanece desconocido, lo que dificulta evaluar la efectividad de los rechazos. Tradicionalmente se han utilizado marcas heurísticas binarias para identificar rechazos potencialmente riesgosos, pero presentan limitaciones significativas: alta tasa de falsos positivos (solo el 15.6% de los pagos aprobados marcados resultan fraudulentos), imposibilidad de establecer ordenamiento de severidad, y construcción basada en un subconjunto limitado de restricciones). Este trabajo propone desarrollar un score continuo de detección de anomalías mediante un modelo de Deep Learning no supervisado basado en un Variational Autoencoder (VAE) que aprende la distribución de transacciones legítimas aprobadas. Para abordar la heterogeneidad de datos provenientes de ocho dominios distintos (cuatro países y dos tipos de transferencia), se implementó una arquitectura adversarial multi-dominio con Gradient Reversal Layer (GRL) que fuerza representaciones invariantes al dominio, junto con mecanismos de cross-attention para mejorar la reconstrucción. El modelo se entrenó con 468 features sobre más de 27 millones de transacciones históricas, optimizando hiperparámetros mediante Optuna. La evaluación demostró que el modelo discrimina efectivamente entre transacciones legítimas y fraudulentas sin supervisión. Utilizando el umbral del percentil 99 del error de reconstrucción, solo el 1.02% de transacciones legítimas fueron clasificadas como anómalas, mientras que el 10.77% de las fraudulentas fueron correctamente identificadas. Este comportamiento se mantuvo consistente a través de todos los dominios, superando las limitaciones de las marcas heurísticas tradicionales y permitiendo establecer un ordenamiento continuo de riesgo para mejorar la detección de fraude transaccional.
- ItemPrevención del fraude con machine learning: revisión de la literatura(2025) Ferrari Navarro, Daiana SoledadLa detección de fraudes en ecosistemas financieros ha tenido una evolución muy significativa durante los últimos años pasando por el uso de reglas expertas y parametría en los productos, Inteligencia Artificial, Machine Learning, Deep Learning hasta estar hoy en el punto de la evaluación en tiempo real y el verdadero trabajo preventivo. Esta revisión bibliográfica se basó en 79 artículos académicos para resumir el estado del arte en la utilización de la ciencia de datos en la resolución del problema de la prevención del fraude en banca. En particular, el interés está puesto únicamente sobre las transacciones monetarias de entre un mundo de posibles maneras de cometer fraude actualmente. La manera de estructurar la búsqueda y el resumen fue en las grandes familias de algoritmos: Supervisados, No Supervisados e Híbridos, con una mención especial a los grafos. Los algoritmos son resumidos y evaluados según su desempeño pero también los recursos que demandan y la facilidad de su aplicación. Asimismo, el entendido de base es que la evaluación debe ser en tiempo real. Se incluyen los mayores retos con los que se encuentra actualmente en el campo desde la perspectiva experta de la autora: el imbalance de las clases, las definiciones de anomalías, los patrones cambiantes y dinámicos, defraudadores cada día más sofisticados... El resultado no es más que reafirmar el valor que tiene para este trabajo el contar con la tecnología que permita continuar decidiendo sobre las transacciones en línea y hacerlo cada día con el menor impacto posible en el usuario genuino, y esto pese a que no hay un modelo o solución claramente "ganador"ni visiblemente alejado en performance de los demás de su entorno, sí queda claro que el mundo se mueve camino a evaluación en streaming, con modelos híbridos y apuntando al aprendizaje automático. Ya no es sólo un problema estadístico, muchas más profesiones deben sentarse a la mesa, ingenieros de datos, MLOps, arquitectos, ingenieros, el fraude se complejiza y nuestro trabajo también.
- ItemTransformando reseñas en la voz del cliente con IA : sentiment por aspecto en español(2025) Iglesias, Paula AndreaLas reseñas digitales representan una fuente invaluable de retroalimentación no estructurada que permite a las organizaciones comprender la percepción de sus clientes. Este trabajo desarrolla una metodología integral para transformar reseñas de Google Maps en insights accionables mediante análisis de sentimiento basado en aspectos (ABSA) en español, abordando la necesidad de extraer información granular sobre dimensiones específicas del negocio. En este estudio implementamos un pipeline completo que incluye: (1) la definición sistemática de aspectos de negocio relevantes para clientes y organizaciones, (2) la generación de un dataset sintético de 3,000 reseñas etiquetadas utilizando ChatGPT con técnicas de few-shot prompting, logrando un coeficiente Kappa de Cohen de 64.5% respecto a anotación humana, y (3) el fine-tuning de modelos de lenguaje pre-entrenados en español (BERT, RoBERTa y RoBERTuito) para clasificación de sentimiento por aspecto. Evaluamos tres arquitecturas diferentes: modelos individuales por aspecto (MI), modelos múltiples para todos los aspectos (MM), y modelos múltiples simplificados (MMS). Los resultados demuestran que el modelo MMS basado en RoBERTa alcanza el mejor desempeño con un Macro F1-Score de 77,49 %, superando significativamente a los enfoques individuales (64,45 %) y múltiples tradicionales (52,94 %). La metodología desarrollada permite generar métricas de ‘percepción del cliente’ que facilitan el monitoreo temporal y la toma de decisiones estratégicas. Este trabajo demuestra la viabilidad de automatizar el análisis de sentimiento por aspectos utilizando datos sintéticos para el entrenamiento, ofreciendo una solución escalable y costo-efectiva para la gestión de la voz del cliente en organizaciones de servicios.
- ItemEstrategias de recomendación semántica para productos innovadores: un caso de estudio Zero-Shot con IQOS(2025) Silva Alva, Peter JoeEl objetivo de esta tesis es abordar el problema del Zero-Shot (cold start extremo) en los sistemas de recomendación mediante el diseño e implementación de estrategias de Zero-Shot learning aplicadas al ecosistema de productos IQOS. Se desarrollan y comparan tres enfoques: un sistema basado en embeddings semánticos, otro utilizando modelos de lenguaje de gran escala (LLM), y un modelo híbrido que combina ambos mediante una arquitectura de “retrieve and re-rank”. Los resultados cuantitativos muestran que el modelo híbrido supera a los enfoques individuales, mitigando alucinaciones del LLM y mejorando la precisión semántica. Cualitativamente, el híbrido ofrece justificaciones persuasivas, destacando la importancia de descripciones enriquecidas.
- ItemRevisión del modelo suavizado exponencial clásico y robusto para predicción de la demanda(2025) Dufour, Leonardo AndrésEl presente trabajo aborda la comparación entre un modelo de suavizado exponencial clásico y su versión robusta, con el objetivo de evaluar su desempeño en la predicción de la demanda en contextos con presencia de valores atípicos. A partir de una serie temporal real de ventas semanales de una sucursal deWalmart, se analizaron distintas configuraciones de los modelos y se contrastaron sus resultados mediante criterios de información y análisis de predicciones puntuales junto con sus interavlos. Los resultados obtenidos evidencian que el modelo robusto mantiene una mayor estabilidad frente a observaciones extremas y produce intervalos de predicción más acotados, mientras que el modelo clásico muestra mejor desempeño cuando los datos están libres de outliers. El estudio destaca la importancia de incorporar enfoques robustos en el análisis de series temporales aplicadas al Supply Chain, contribuyendo a mejorar la precisión de las predicciones y la eficiencia en la planificación de la demanda.
- ItemSistemas de recomendación: un estudio comparativo de técnicas de filtrado(2025) Suarez Gurruchaga, Carlos RoqueLos sistemas de recomendación constituyen una herramienta fundamental en el entorno digital actual, donde usuarios se enfrentan a una sobrecarga de información que dificulta la toma de decisiones. Este trabajo presenta un análisis comparativo de siete diferentes estrategias de recomendación implementadas y evaluadas sobre el dataset MovieLens. Entre ellas se encuentran un Filtro colaborativo basado en memoria (tanto clásico como con ponderación temporal), un Filtro colaborativo por factores latentes, un Filtro basado en contenido actuando en combinación con Latent Dirichlet Allocation (LDA), un algoritmo de modelado de tópicos que permite descubrir patrones semánticos, y una propuesta híbrida que combina las fortalezas de múltiples técnicas. Los resultados revelan un trade-off entre precisión y cobertura: mientras que los filtros colaborativos se destacan en precisión y calidad de ordenamiento, el filtro basado en contenido sobresale en cobertura de usuarios e ítems. Por otro lado, los modelos híbridos logran un equilibrio óptimo, alcanzando alta precisión, calidad de ordenamiento y cobertura, constituyendo la opción más versátil. Esta investigación demuestra la importancia de seleccionar el enfoque de recomendación según objetivos específicos y características del conjunto de datos disponible, destacando la flexibilidad de los modelos híbridos como solución integral capaz de abordar simultáneamente las limitaciones de los enfoques individuales.
- ItemBrainNetTest: un marco estadístico-computacional en R para comparar poblaciones de redes cerebrales(2025) Martino, MaximilianoEsta tesis aborda la identificación de diferencias estructurales entre poblaciones de redes cerebrales y, en particular, la localización de las conexiones responsables de dichas diferencias. Cada red se modela como un grafo no dirigido G = (V,E), donde los nodos representan regiones cerebrales y las aristas, conexiones estructurales o funcionales. Partiendo de una prueba estadística global existente [1], que mediante un estadístico T y bootstrap evalúa si varias poblaciones de grafos provienen de la misma distribución, se propone una extensión metodológica para identificar aristas críticas. El procedimiento: 1. Calcula p-valores marginales por arista (ANOVA de proporciones). 2. Ordena y elimina aristas secuencialmente, recalculando T tras cada paso. 3. Se detiene cuando la prueba global pierde significancia. Para redes medianas y grandes, se desarrolla una optimización basada en la separabilidad exacta de T bajo norma L1, lo que permite precomputar contribuciones Δe y actualizar T en tiempo constante por iteración, reduciendo la complejidad de O(KB|E|m) a O(B|E|m) + O(KB). Finalmente, se desarrolló una librería en R que implementa tanto la prueba global de diferencias entre poblaciones como el procedimiento de identificación de aristas críticas al comparar muestras de redes.
- ItemÁrboles de regresión para discriminar elasticidades(2025) Aubone, Patricio IdelEl objetivo del presente trabajo es diseñar una metodología más eficiente y precisa para identificar nichos de mercado con elasticidades de precio de la demanda diferenciadas, facilitando la implementación de estrategias de pricing que permitan a la compañía maximizar tanto sus volúmenes de venta como sus márgenes. Si bien actualmente se emplean mecanismos que calculan la elasticidad total de un mercado puntual, somos conscientes de que pueden existir subgrupos dentro de dicho mercado que respondan de manera diferente a los cambios en los precios. La capacidad de detectar estas granularidades y su sensibilidad permite definir precios diferenciados para cada subgrupo, lo que incrementa la rentabilidad de la compañía. En cuanto al proceso general, buscaremos definir una serie de variables de negocio que resulten relevantes, en términos comerciales, al momento de analizar un mercado. Las mismas se evaluarán individualmente con el fin de segmentar el universo estudiado y probar si las divisiones generan subgrupos con elasticidades diferenciadas. Se seleccionarán las variables y niveles que proporcionen los cortes más significativos, dentro de los parámetros establecidos previamente. La estructura general del análisis se basará en árboles de decisión como método divisivo, mientras que la validación de la significancia de los cortes se fundamentará en el uso de regresiones y los p-valores asociados a los estadísticos involucrados. Entre las principales motivaciones para impulsar este trabajo se encuentra la mejora de la rentabilidad de la compañía, especialmente en una industria cuyo crecimiento proyectado en los próximos años parece inferior al esperado, lo que podría reducir el tamaño del mercado y los niveles de ingresos previstos. Asimismo, existe una motivación operativa: actualmente, son los analistas del equipo comercial quienes intentan identificar estos subgrupos mediante un enfoque de “prueba y error” a partir de su intuición y conocimiento del mercado. La implementación de un procedimiento basado en el modelo que buscamos desarrollar aportaría mayor robustez, al incorporar pruebas estandarizadas para validar los resultados, y eficiencia, al incluir un mayor número de variables en la detección de subgrupos y reducir considerablemente el tiempo dedicado por los analistas. Finalmente, el aspecto operativo será crucial para la implementación de las segmentaciones detectadas por el modelo. A mayor profundidad de los árboles de decisión, más granulares serán los subgrupos resultantes, lo que implicará mayores exigencias operativas para definir, mantener y ajustar las reglas de pricing específicas para cada uno de ellos.
- ItemExploración de los cambios acústicos en el envejecimiento vocal a partir del análisis de las vocales(2025) Schiavoni, AntonellaEste trabajo investiga los factores acústicos que existen en las voces humanas y su variación a lo largo de un período de la vida mediante un análisis estadístico y predictivo. Se analizó una base de datos de voces y caras de jóvenes adultos europeos (GEFAV), que incluye grabaciones de 111 participantes (61 mujeres y 50 hombres) de 18-35 años. El estudio examina características acústicas como la frecuencia fundamental, formantes, intensidad, jitter y shimmer, y cómo estas varían según la edad y el género. Además, se realizaron análisis espectrales detallados de las vocales /i/, /a/ y /o/. Se llevaron a cabo análisis multivariados para explorar las relaciones entre diversas características acústicas extraídas de las voces del corpus GEFAV y la variable edad de los hablantes. Para ello, se calcularon matrices de correlación entre parámetros como la frecuencia fundamental, los formantes, la intensidad, el jitter y el shimmer, y la edad. Además, se implementaron modelos predictivos supervisados utilizando técnicas de machine learning, como Regresión Logística y Random Forest, con el objetivo de clasificar a los hablantes en distintos rangos etarios a partir de las variables acústicas seleccionadas. El proceso incluyó etapas de preprocesamiento, selección y transformación de características, así como la evaluación de los modelos mediante métricas de desempeño y análisis de importancia de variables.
- ItemAnálisis de estabilidad temporal y rendimiento en modelos LightGBM : propuesta metodológica basada en reentrenamiento periódico(2025) Vermeulen, FlorenciaEste trabajo analiza la estabilidad temporal y el rendimiento de los modelos LightGBM, destacando cómo su capacidad predictiva puede degradarse con el tiempo debido a cambios en la distribución de los datos. Se propone una metodología basada en el reentrenamiento periódico con información más reciente, sin modificar la configuración original del modelo como alternativa para solventar esta pérdida de eficiencia.
- ItemArchetypes Core Clustering Method (ACCM) : procedimiento de clustering basado en los conceptos de profundidades locales integradas y la construcción de arquetipos(2025) Ornat, Fernando AntonioEste documento presenta una estrategia innovadora de asignación de grupos denominada ‘ACCM’ (Archetypes Core Clustering Method), que se basa en un procedimiento de clustering existente fundamentado en la noción de profundidad local. La propuesta introduce el concepto de estructuras arquetípicas de los datos, con el objetivo de optimizar los tiempos de ejecución. El método, implementado en R, tiene su código disponible en un repositorio público de GitHub. El caso de estudio principal se centra en la caracterización de trayectorias de partículas que luego de cinco días llegan a la Península de Byers, Antártida, representados como datos funcionales obtenidos mediante simulaciones en HYSPLIT. Este análisis requiere métodos específicos debido a la naturaleza no estándar del bouquet de trayectorias de partículas de aire en la región, lo que incluye el cálculo de la distancia de Frechet que se caracteriza por su alto costo computacional. El documento comienza con una introducción al marco conceptual, donde se realiza un estado del arte sobre técnicas relacionadas con profundidad de datos, core-clusters y arquetipos, así como también del procedimiento basado en profundidades locales que sirvió como inspiración para esta propuesta. Posteriormente, se detalla el método ACCM, explicando su algoritmo paso a paso, las simulaciones realizadas y las decisiones clave que dieron forma a la estrategia final. También se incluye una evaluación comparativa frente a un benchmark, analizando la precisión y los tiempos de ejecución del método. En cuanto al caso práctico, se aborda el problema de la llegada de microorganismos aéreos en la Antártida, utilizando la distancia de Fréchet en el algoritmo para identificar core-clusters y asignar observaciones fuera de estos. Se presentan resultados para el período 2005-2016, junto con un análisis de las decisiones intermedias y una interpretación exhaustiva de los hallazgos. Finalmente, la conclusión destaca el aporte de ACCM en este contexto específico, subrayando la razonabilidad de los resultados y la eficiencia en los tiempos de ejecución como sus principales contribuciones. Además, se proponen posibles mejoras y líneas futuras de investigación como punto de partida para trabajos posteriores.
- ItemModelo de optimización para el límite de crédito(2025) Sanseverino, Maria CeciliaEl presente trabajo se orienta a proponer una alternativa al análisis tradicional del otorgamiento de créditos comerciales, tomando como caso de estudio una compañía del sector petrolero. La gestión del riesgo crediticio constituye un aspecto crítico para la sostenibilidad financiera de este tipo de organizaciones, dado el volumen y la diversidad de clientes que operan en múltiples segmentos de negocio. En la práctica habitual, los límites de crédito suelen definirse a partir de heurísticas basadas en experiencia, reglas internas o indicadores financieros simples, lo que conduce a resultados heterogéneos y, en muchos casos, poco ajustados al perfil real de riesgo y al potencial comercial de cada cliente. Con el fin de evaluar estas limitaciones, en primer lugar se analizan los métodos clásicos de evaluación crediticia y su capacidad de estimar límites adecuados para diferentes segmentos. Posteriormente, se plantea una propuesta superadora apoyada en la analítica avanzada de datos y en el uso de modelos de aprendizaje automático. Esta aproximación permite capturar patrones no lineales, incorporar un mayor volumen de información y generar recomendaciones más consistentes sobre el nivel de crédito apropiado en cada caso. Finalmente, se incorpora una etapa de optimización lineal que integra las restricciones derivadas de las garantías y del patrimonio neto de los clientes, distribuyendo de forma eficiente la exposición total entre las distintas líneas de negocio. De este modo, el modelo no solo estima un límite individual por cliente, sino que propone una asignación global más coherente con la capacidad de repago y con el objetivo de maximizar el retorno ajustado por riesgo (RAR). En conjunto, el enfoque presentado constituye una herramienta novedosa para la gestión de créditos comerciales en el sector petrolero, aportando un marco más objetivo, escalable y alineado con las mejores prácticas de análisis de riesgo.
- ItemMedición de la plausibilidad anatómica en la segmentación de imágenes médicas: un enfoque basado en autocodificadores variacionales(2025) Fonzo, NataliaLos algoritmos de segmentación de imágenes son fundamentales en el diagnóstico y tratatamiento asistido por computadora. Dado el impacto que pueden tener en la práctica clínica, es crucial contar con métricas de evaluación que estén alineadas con el objetivo final del algoritmo. En este sentido, medir la calidad anatómica de la segmentación de una imagen médica tiene una importancia significativa. Las métricas existentes son usualmente insensibles a esta dimensión. Este trabajo explora la viabilidad de utilizar Autocodificadores Variacionales (VAEs, por sus siglas en inglés) como una forma de aprender métricas anatómicamente sensibles, útiles para evaluar la calidad y, más aún, la plausibilidad de la segmentación de imágenes médicas. Se explora si los espacios latentes aprendidos por estos modelos tienen la capacidad de capturar distancias anatómicas, si se comportan simétricamente y si distinguen formas inorgánicas. Además, se evalúa cómo influyen en dichos aspectos las dimensiones del VAE, la estrategia de entrenamiento y la métrica de distancia utilizada.
- ItemPrevención de fraude en apertura de cuentas bancarias con aprendizaje automático(2025) Molin, GinoEste trabajo aborda la detección de fraude en la apertura de cuentas bancarias mediante modelos de aprendizaje automático, focalizándose en técnicas de Gradient Boosting (XGBoost, LightGBM y CatBoost) para enfrentar los desafíos asociados al desbalance de clases y a la deriva de datos. Se parte de un conjunto de datos, en el que la incidencia de fraude es extremadamente baja, lo que obliga a explorar estrategias de remuestreo como el submuestreo de la clase mayoritaria y técnicas de sobremuestreo (SMOTE) para mejorar la capacidad de los modelos de identificar solicitudes fraudulentas. La metodología propuesta incluye un riguroso preprocesamiento y validación cruzada, complementado con la optimización de hiperparámetros mediante la librería Optuna. Además, se emplean variaciones en la distribución de los datos para evaluar la robustez de los modelos ante cambios temporales y conceptuales. Los resultados experimentales demuestran que los tres algoritmos de Gradient Boosting alcanzan un rendimiento elevado, con ROC-AUC superior a 0,89 y PR-AUC en torno a 0,18, evidenciando una adecuada capacidad discriminatoria pese al desbalance de clases. Dentro de este conjunto, CatBoost se destaca ligeramente al ofrecer el mejor equilibrio entre capacidad de discriminación y estabilidad. No obstante, se evidencia que la presencia de deriva, especialmente en escenarios adversos, degrada significativamente el rendimiento de los modelos, lo que subraya la necesidad de implementar sistemas de monitoreo y actualización continua. En síntesis, esta investigación aporta un marco práctico y detallado para la detección de fraude en entornos financieros, combinando estrategias de remuestreo, uso de métricas especificas para el problema abordado y optimización de modelos, ofreciendo lineamientos para el desarrollo de sistemas robustos en la lucha contra el fraude digital.
- ItemHerramientas de inteligencia artificial en la lucha contra la violencia de género digital : un estudio con enfoque en el español rioplatense(2024-01) Luvini, Paula SabrinaEl abuso y la violencia digital puede describirse como aquel discurso que ejerce violencia y acoso a través de redes sociales como WhatsApp, Facebook, Twitter, entre otras plataformas. Desde la proliferación de estas plataformas digitales, este tipo de discurso ha tomado gran relevancia en redes sociales, dando lugar a formas específicas de acoso digital y haciendo la definición de abuso en línea compleja. En este sentido, diversos estados y organizaciones de la sociedad civil han estudiado el tema y tomado acciones para moderar el contenido abusivo en línea, además de las acciones propias que las empresas pueden tomar. También se implementaron protocolos en caso de ser víctima de violencia digital. Varios estudios internacionales y locales revelan que las mujeres y otras identidades feminizadas sufren altos índices de acoso virtual. Esto tiene varias consecuencias, como un impacto negativo en la salud mental de las víctimas o en la participación política de las mujeres, evidenciado por testimonios que muestran cómo recibir amenazas e insultos en línea puede condicionar su vida política. Los estudios que analizan la violencia digital hacia las mujeres suelen emplear encuestas o entrevistas para comprender la profundidad del impacto en las víctimas. Sin embargo, estas metodologías pueden limitar la visión general. Por este motivo, en esta tesis queremos abordar esta limitación introduciendo un modelo que puede detectar diversos tipos de sentimiento en los tweets que mujeres que están inmersas en la política y el ámbito público pueden sufrir. Para ello, utilizamos un dataset que fue construido para un proyecto solicitado por PNUD Uruguay, el Instituto Nacional de las Mujeres del gobierno de Uruguay y la Embajada Británica de Montevideo. El dataset fue construido en un proceso de anotación con dos grupos de anotadores uruguayos que debían clasificar varias cosas de cada tweet recibido, entre ellas si los tweets eran dirigidos o no y si se trataban de tweets abusivos, críticos, neutrales, positivos o de contra-abuso. Se anotaron 9.000 tweets en total, seleccionados aleatoriamente y mediante active learning para optimizar la eficiencia del modelo. A partir de la construcción de este dataset se evaluó el agreement entre anotadores y la calidad del mismo encontrando resultados alentadores. Luego se realizó un benchmarking con los principales transformers pre entrenados de lenguaje (Bert, Roberta, Robertuito, Electra y Bertin) y se comparó el desempeño de cada uno. El modelo que mostraba mejores resultados en el dataset de validación fue Robertuito, con el que se evaluó el modelo final y se realizó un análisis de resultados y de error detallado para evaluar próximos pasos a seguir en futuros trabajos.
- ItemCompetencia originaria de la Corte Suprema de Justicia en el derecho ambiental : un análisis de relevancia de variables y capacidad predictiva(2024) Achenbach Waintal, PaulaEste trabajo utiliza una base de datos de casos ambientales presentados ante la Corte Suprema de Justicia (CSJN) de la Nación con el fin de analizar qué aspectos son de mayor relevancia para la misma a la hora de decidir sobre su competencia originaria. Además, verificar si el análisis se modifica cuando no se tienen en cuenta las variables relacionadas con la decisión del Procurador. Por último, explora la creación de un modelo predictivo sobre la decisión de la Corte ante un nuevo caso presentado. Para todas estas tareas se utilizaron modelos de clasificación basados en árboles (CART y Random Forest) y un modelo de Regresión Logística con penalización Lasso. Los resultados indican que la decisión de la CSJN coincide en general con la decisión del Procurador y que los factores más determinantes son el tema del que trata el expediente y si el caso involucra o no un recurso interjurisdiccional. A su vez, se evidencia que la decisión de la CSJN ha sido uniforme a lo largo del tiempo, sin cambio de las variables más relevantes y resultados generales independientemente de lo dictaminado por el Procurador. Los modelos seleccionados logran de manera exitosa clasificar y predecir la variable dependiente de la decisión de la CSJN, así como describir de forma sencilla el proceso de la toma de decisiones.
- ItemAnálisis de supervivencia aplicado a seguros de vida(2024) Ridolfo, Brenda AnabelAl definir la prima de una póliza de seguros, las aseguradoras deben cuantificar el riesgo asumido. Dicha cuantificación determinará la constitución de reservas que sean suficientes para solventar los reclamos futuros. El objetivo del trabajo es aplicar un método estadístico para el análisis de la mortalidad de una cartera de Seguros de Vida, sabiendo que se parte de datos censurados. Para ello, se propone la aplicación de métodos de Survival Analysis, en sus variantes no paramétrica, semi paramétrica y paramétrica. Ésta última, a diferencia de las demás, asume una distribución conocida para modelar la función de supervivencia. Una dificultad a abordar será el gran desbalanceo entre clases, siendo muy baja la proporción de los fallecimientos observados respecto del total de asegurados. Este trabajo presenta la siguiente estructura. En el Capítulo 1 se introduce la motivación del problema y en el Capítulo 2 se describe la metodología aplicada. El Capítulo 3 está abocado a describir los datos y los resultados obtenidos. Finalmente, se presentan las conclusiones del trabajo y en un apéndice el código de Python.
- Itempaskal : desarrollo de un paquete en R para la aplicación de inferencia estadística en auditorías de desempeño(2024) Rubione, Martín Pablo
- ItemInmigración en películas : un análisis utilizando aprendizaje automático a partir de los subtítulos(2024) Brau, WendyEste trabajo caracteriza el contenido de inmigración de las películas a partir del texto de más de 27 mil subtítulos. Primero, se usa una combinación de Fast K-Medoids, Random Forest y clustering jerárquico para definir temáticas estables e interpretables que estén sistemáticamente asociadas al contenido de inmigración. Segundo, se entrenan varios modelos supervisados con el objetivo de construir un índice continuo del grado de contenido de inmigración en cada película. Finalmente, se explora la asociación entre el consumo en cines de películas con mayor o menor contenido sobre inmigración y las dinámicas reales de inmigración.
