Departamento de Matemática y Ciencias

Permanent URI for this community

https://repositorio.udesa.edu.ar/handle/10908/23401

Browse

Análisis de estabilidad temporal y rendimiento en modelos LightGBM : propuesta metodológica basada en reentrenamiento periódico
(2025) Vermeulen, Florencia
Este trabajo analiza la estabilidad temporal y el rendimiento de los modelos LightGBM, destacando cómo su capacidad predictiva puede degradarse con el tiempo debido a cambios en la distribución de los datos. Se propone una metodología basada en el reentrenamiento periódico con información más reciente, sin modificar la configuración original del modelo como alternativa para solventar esta pérdida de eficiencia.
Análisis de series de tiempo de funciones de densidad con aplicación al sector aeroespacial
(2023) Lupi, Nicolás
El objetivo del trabajo es comparar distintos métodos para proyectar la evolución de una función de densidad en el tiempo. En concreto, dado un conjunto de observaciones generadas por un proceso aleatorio a lo largo del tiempo, nos interesa caracterizar la evolución del mismo para poder predecirlo a futuro. La motivación es poder generar muestras de una nueva distribución condicional al paso del tiempo, si bien podría condicionarse a otra variable según el problema. El disparador de este análisis es un estudio que se quiere realizar sobre el cambio a lo largo de los años de las características que tienen los lanzamientos de satélites a órbita, en particular sobre la masa de los mismos. A partir de los datos, para cada año se puede obtener un estimador de la densidad de la masa de los satélites. En base a estas estimaciones se busca predecir las densidades para los próximos años. Se proponen tres métodos alternativos. El primer enfoque es paramétrico y asume que la secuencia de distribuciones proviene de una familia paramétrica y que las observaciones futuras también pertenecerán a la misma familia. Luego, el problema se reduce en modelar mediante series de tiempo los parámetros de dichas distribuciones. El segundo enfoque es no paramétrico y se basa en el Análisis de Componentes Principales Funcionales (FPCA en inglés): considerando las densidades como una secuencia de datos funcionales, los mismos serán representados en una base conveniente de funciones ponderadas por escalares que variarán a lo largo del tiempo. Con estos escalares se construirá una serie de tiempo para proyectar a futuro. Por último, el método de Redes Adversarias Generativas Condicionales (cGAN por sus siglas en inglés) es un enfoque innovador que buscará entrenar un modelo para generar muestras nuevas similares a las reales teniendo en cuenta el período para el cual serán generadas. Al igual que el segundo método, este no hace ningún supuesto sobre las distribuciones, pero a diferencia del anterior no requiere construir ni proyectar ninguna serie de tiempo. Este trabajo presenta la siguiente estructura: en el Capítulo 1 se introduce la motivación del problema y en el Capítulo 2 se describen las tres propuestas metodológicas. El Capítulo 3 está abocado a analizar sus desempeño en conjuntos de datos simulados. En el cuarto capítulo se analizan los datos correspondientes a los pesos de los satélites. Finalmente, se presentan las conclusiones del trabajo.
Análisis de supervivencia aplicado a seguros de vida
(2024) Ridolfo, Brenda Anabel
Al definir la prima de una póliza de seguros, las aseguradoras deben cuantificar el riesgo asumido. Dicha cuantificación determinará la constitución de reservas que sean suficientes para solventar los reclamos futuros. El objetivo del trabajo es aplicar un método estadístico para el análisis de la mortalidad de una cartera de Seguros de Vida, sabiendo que se parte de datos censurados. Para ello, se propone la aplicación de métodos de Survival Analysis, en sus variantes no paramétrica, semi paramétrica y paramétrica. Ésta última, a diferencia de las demás, asume una distribución conocida para modelar la función de supervivencia. Una dificultad a abordar será el gran desbalanceo entre clases, siendo muy baja la proporción de los fallecimientos observados respecto del total de asegurados. Este trabajo presenta la siguiente estructura. En el Capítulo 1 se introduce la motivación del problema y en el Capítulo 2 se describe la metodología aplicada. El Capítulo 3 está abocado a describir los datos y los resultados obtenidos. Finalmente, se presentan las conclusiones del trabajo y en un apéndice el código de Python.
Aplicación de grafos de conocimiento en drug repurposing de enfermedades autoinmunes desmielinizantes
(2024) Barrera, Nicolás Eloy
En este trabajo se aplica un algoritmo llamado Drug Repurposing Knowledge Graph (DRKG), basado en un grafo de conocimiento construido a partir de la información recolectada de diversas fuentes de datos químicos, bioinformáticos y biomédicos, con el fin de buscar candidatos para reposicionamiento de medicamentos (Drug repurposing) en enfermedades autoinmunes desmielinizantes del sistema nervioso central, afecciones dentro del grupo de aquellas enfermedades denominadas raras. Se explica el procedimiento de construcción del grafo, se mencionan las distintas técnicas de obtención de embeddings aplicables, y en base a una de dichas técnicas, se obtienen las drogas candidatas para reposicionamiento. Por último, se sacan conclusiones mediante la comparación de los resultados obtenidos con distintas investigaciones relativas a las enfermedades objetivo y las drogas encontradas.
Árboles de regresión para discriminar elasticidades
(2025) Aubone, Patricio Idel
El objetivo del presente trabajo es diseñar una metodología más eficiente y precisa para identificar nichos de mercado con elasticidades de precio de la demanda diferenciadas, facilitando la implementación de estrategias de pricing que permitan a la compañía maximizar tanto sus volúmenes de venta como sus márgenes. Si bien actualmente se emplean mecanismos que calculan la elasticidad total de un mercado puntual, somos conscientes de que pueden existir subgrupos dentro de dicho mercado que respondan de manera diferente a los cambios en los precios. La capacidad de detectar estas granularidades y su sensibilidad permite definir precios diferenciados para cada subgrupo, lo que incrementa la rentabilidad de la compañía. En cuanto al proceso general, buscaremos definir una serie de variables de negocio que resulten relevantes, en términos comerciales, al momento de analizar un mercado. Las mismas se evaluarán individualmente con el fin de segmentar el universo estudiado y probar si las divisiones generan subgrupos con elasticidades diferenciadas. Se seleccionarán las variables y niveles que proporcionen los cortes más significativos, dentro de los parámetros establecidos previamente. La estructura general del análisis se basará en árboles de decisión como método divisivo, mientras que la validación de la significancia de los cortes se fundamentará en el uso de regresiones y los p-valores asociados a los estadísticos involucrados. Entre las principales motivaciones para impulsar este trabajo se encuentra la mejora de la rentabilidad de la compañía, especialmente en una industria cuyo crecimiento proyectado en los próximos años parece inferior al esperado, lo que podría reducir el tamaño del mercado y los niveles de ingresos previstos. Asimismo, existe una motivación operativa: actualmente, son los analistas del equipo comercial quienes intentan identificar estos subgrupos mediante un enfoque de “prueba y error” a partir de su intuición y conocimiento del mercado. La implementación de un procedimiento basado en el modelo que buscamos desarrollar aportaría mayor robustez, al incorporar pruebas estandarizadas para validar los resultados, y eficiencia, al incluir un mayor número de variables en la detección de subgrupos y reducir considerablemente el tiempo dedicado por los analistas. Finalmente, el aspecto operativo será crucial para la implementación de las segmentaciones detectadas por el modelo. A mayor profundidad de los árboles de decisión, más granulares serán los subgrupos resultantes, lo que implicará mayores exigencias operativas para definir, mantener y ajustar las reglas de pricing específicas para cada uno de ellos.
Archetypes Core Clustering Method (ACCM) : procedimiento de clustering basado en los conceptos de profundidades locales integradas y la construcción de arquetipos
(2025) Ornat, Fernando Antonio
Este documento presenta una estrategia innovadora de asignación de grupos denominada ‘ACCM’ (Archetypes Core Clustering Method), que se basa en un procedimiento de clustering existente fundamentado en la noción de profundidad local. La propuesta introduce el concepto de estructuras arquetípicas de los datos, con el objetivo de optimizar los tiempos de ejecución. El método, implementado en R, tiene su código disponible en un repositorio público de GitHub. El caso de estudio principal se centra en la caracterización de trayectorias de partículas que luego de cinco días llegan a la Península de Byers, Antártida, representados como datos funcionales obtenidos mediante simulaciones en HYSPLIT. Este análisis requiere métodos específicos debido a la naturaleza no estándar del bouquet de trayectorias de partículas de aire en la región, lo que incluye el cálculo de la distancia de Frechet que se caracteriza por su alto costo computacional. El documento comienza con una introducción al marco conceptual, donde se realiza un estado del arte sobre técnicas relacionadas con profundidad de datos, core-clusters y arquetipos, así como también del procedimiento basado en profundidades locales que sirvió como inspiración para esta propuesta. Posteriormente, se detalla el método ACCM, explicando su algoritmo paso a paso, las simulaciones realizadas y las decisiones clave que dieron forma a la estrategia final. También se incluye una evaluación comparativa frente a un benchmark, analizando la precisión y los tiempos de ejecución del método. En cuanto al caso práctico, se aborda el problema de la llegada de microorganismos aéreos en la Antártida, utilizando la distancia de Fréchet en el algoritmo para identificar core-clusters y asignar observaciones fuera de estos. Se presentan resultados para el período 2005-2016, junto con un análisis de las decisiones intermedias y una interpretación exhaustiva de los hallazgos. Finalmente, la conclusión destaca el aporte de ACCM en este contexto específico, subrayando la razonabilidad de los resultados y la eficiencia en los tiempos de ejecución como sus principales contribuciones. Además, se proponen posibles mejoras y líneas futuras de investigación como punto de partida para trabajos posteriores.
Cluster ensembles
(2024) Urrizaga Palacios, Raúl
Clustering en alta dimensión : identificación de variables relevantes en datos mixtos
(2023) Martiarena, Griselda
La aceleración del progreso tecnológico ha generado nuevos desafíos y oportunidades para la supervisión bancaria. El desarrollo y la aplicación de herramientas que facilitan y potencian su tarea es una de ellas. En este sentido, este trabajo aborda la clusterización de las entidades financieras argentinas, a partir de una cantidad considerable de información pública estructurada, y la identificación de las variables relevantes en este proceso. Para ello, se apoya en el empleo de un algoritmo genético y de la metodología de blinding para la selección de variables. En particular, amplía la aplicación de este último enfoque, no sólo a conjuntos de datos con variables numéricas, categóricas y binarias, sino también a métodos de clustering por particiones, siendo este el principal aporte metodológico. Adicionalmente, procura ofrecer una herramienta que permita entender más a fondo el ecosistema bancario en un contexto de volúmenes crecientes de datos. Los resultados finales obtenidos son satisfactorios, confirmando la solidez y utilidad de la estrategia de ocultamiento.
Competencia originaria de la Corte Suprema de Justicia en el derecho ambiental : un análisis de relevancia de variables y capacidad predictiva
(2024) Achenbach Waintal, Paula
Este trabajo utiliza una base de datos de casos ambientales presentados ante la Corte Suprema de Justicia (CSJN) de la Nación con el fin de analizar qué aspectos son de mayor relevancia para la misma a la hora de decidir sobre su competencia originaria. Además, verificar si el análisis se modifica cuando no se tienen en cuenta las variables relacionadas con la decisión del Procurador. Por último, explora la creación de un modelo predictivo sobre la decisión de la Corte ante un nuevo caso presentado. Para todas estas tareas se utilizaron modelos de clasificación basados en árboles (CART y Random Forest) y un modelo de Regresión Logística con penalización Lasso. Los resultados indican que la decisión de la CSJN coincide en general con la decisión del Procurador y que los factores más determinantes son el tema del que trata el expediente y si el caso involucra o no un recurso interjurisdiccional. A su vez, se evidencia que la decisión de la CSJN ha sido uniforme a lo largo del tiempo, sin cambio de las variables más relevantes y resultados generales independientemente de lo dictaminado por el Procurador. Los modelos seleccionados logran de manera exitosa clasificar y predecir la variable dependiente de la decisión de la CSJN, así como describir de forma sencilla el proceso de la toma de decisiones.
Exploración de los cambios acústicos en el envejecimiento vocal a partir del análisis de las vocales
(2025) Schiavoni, Antonella
Este trabajo investiga los factores acústicos que existen en las voces humanas y su variación a lo largo de un período de la vida mediante un análisis estadístico y predictivo. Se analizó una base de datos de voces y caras de jóvenes adultos europeos (GEFAV), que incluye grabaciones de 111 participantes (61 mujeres y 50 hombres) de 18-35 años. El estudio examina características acústicas como la frecuencia fundamental, formantes, intensidad, jitter y shimmer, y cómo estas varían según la edad y el género. Además, se realizaron análisis espectrales detallados de las vocales /i/, /a/ y /o/. Se llevaron a cabo análisis multivariados para explorar las relaciones entre diversas características acústicas extraídas de las voces del corpus GEFAV y la variable edad de los hablantes. Para ello, se calcularon matrices de correlación entre parámetros como la frecuencia fundamental, los formantes, la intensidad, el jitter y el shimmer, y la edad. Además, se implementaron modelos predictivos supervisados utilizando técnicas de machine learning, como Regresión Logística y Random Forest, con el objetivo de clasificar a los hablantes en distintos rangos etarios a partir de las variables acústicas seleccionadas. El proceso incluyó etapas de preprocesamiento, selección y transformación de características, así como la evaluación de los modelos mediante métricas de desempeño y análisis de importancia de variables.
EziQA : integrando NLP, LLM y técnicas de RAG en una aplicación de preguntas y respuestas orientada a investigadores
(2024) Pelli, Pablo Nahuel
En el ámbito académico y profesional, gestionar grandes volúmenes de documentos y textos es un desafío significativo que enfrentan investigadores, asistentes de investigación y estudiantes universitarios. La organización, categorización y extracción de información relevante de colecciones extensas de documentos, mayormente *papers*, puede tornarse tediosa y consumir una cantidad considerable de tiempo, desviando el foco de la investigación principal hacia tareas de procesamiento. A pesar de que existen múltiples herramientas basadas en inteligencia artificial que reducen el tiempo dedicado a tareas repetitivas, los documentos académicos presentan características particulares que dificultan su tratamiento como texto de lenguaje natural debido a sus léxicos y morfologías específicas. Para abordar este problema, se ha desarrollado una aplicación de base de conocimiento basada en Modelos de Lenguaje de Gran Escala (LLM), diseñada para mejorar la eficiencia y experiencia del usuario mediante la categorización automática de documentos. Esta aplicación utiliza técnicas avanzadas de procesamiento de lenguaje natural, como ingeniería de instrucciones (prompt engineering) y extracción-generación aumentada (RAG), para analizar documentos, extraer temas o categorías principales y asignar esta información como metadatos. El objetivo principal de este trabajo es el de proveer una aplicación adecuada para producción que integra una base de conocimientos propia del usuario con una interfaz de usuario que permite el procesamiento y consultado de los documentos utilizando lenguaje natural. En particular, permitiendo al usuario hacer preguntas y obtener respuestas elaboradas sobre los documentos que constituyen la base.
Footprint y clasificación de señales de audio para identificación de hablantes
(2023) Pastorino, Martin Ignacio
Herramientas de inteligencia artificial en la lucha contra la violencia de género digital : un estudio con enfoque en el español rioplatense
(2024-01) Luvini, Paula Sabrina
El abuso y la violencia digital puede describirse como aquel discurso que ejerce violencia y acoso a través de redes sociales como WhatsApp, Facebook, Twitter, entre otras plataformas. Desde la proliferación de estas plataformas digitales, este tipo de discurso ha tomado gran relevancia en redes sociales, dando lugar a formas específicas de acoso digital y haciendo la definición de abuso en línea compleja. En este sentido, diversos estados y organizaciones de la sociedad civil han estudiado el tema y tomado acciones para moderar el contenido abusivo en línea, además de las acciones propias que las empresas pueden tomar. También se implementaron protocolos en caso de ser víctima de violencia digital. Varios estudios internacionales y locales revelan que las mujeres y otras identidades feminizadas sufren altos índices de acoso virtual. Esto tiene varias consecuencias, como un impacto negativo en la salud mental de las víctimas o en la participación política de las mujeres, evidenciado por testimonios que muestran cómo recibir amenazas e insultos en línea puede condicionar su vida política. Los estudios que analizan la violencia digital hacia las mujeres suelen emplear encuestas o entrevistas para comprender la profundidad del impacto en las víctimas. Sin embargo, estas metodologías pueden limitar la visión general. Por este motivo, en esta tesis queremos abordar esta limitación introduciendo un modelo que puede detectar diversos tipos de sentimiento en los tweets que mujeres que están inmersas en la política y el ámbito público pueden sufrir. Para ello, utilizamos un dataset que fue construido para un proyecto solicitado por PNUD Uruguay, el Instituto Nacional de las Mujeres del gobierno de Uruguay y la Embajada Británica de Montevideo. El dataset fue construido en un proceso de anotación con dos grupos de anotadores uruguayos que debían clasificar varias cosas de cada tweet recibido, entre ellas si los tweets eran dirigidos o no y si se trataban de tweets abusivos, críticos, neutrales, positivos o de contra-abuso. Se anotaron 9.000 tweets en total, seleccionados aleatoriamente y mediante active learning para optimizar la eficiencia del modelo. A partir de la construcción de este dataset se evaluó el agreement entre anotadores y la calidad del mismo encontrando resultados alentadores. Luego se realizó un benchmarking con los principales transformers pre entrenados de lenguaje (Bert, Roberta, Robertuito, Electra y Bertin) y se comparó el desempeño de cada uno. El modelo que mostraba mejores resultados en el dataset de validación fue Robertuito, con el que se evaluó el modelo final y se realizó un análisis de resultados y de error detallado para evaluar próximos pasos a seguir en futuros trabajos.
Inmigración en películas : un análisis utilizando aprendizaje automático a partir de los subtítulos
(2024) Brau, Wendy
Este trabajo caracteriza el contenido de inmigración de las películas a partir del texto de más de 27 mil subtítulos. Primero, se usa una combinación de Fast K-Medoids, Random Forest y clustering jerárquico para definir temáticas estables e interpretables que estén sistemáticamente asociadas al contenido de inmigración. Segundo, se entrenan varios modelos supervisados con el objetivo de construir un índice continuo del grado de contenido de inmigración en cada película. Finalmente, se explora la asociación entre el consumo en cines de películas con mayor o menor contenido sobre inmigración y las dinámicas reales de inmigración.
Métricas para la influencia de una campaña en redes sociales
(2022) Brito, Manuel
La publicidad con Influencers es una actividad del marketing en crecimiento y se estima que para finales de 2022 la inversión en ellos será de U$D 15 mil millones a nivel mundial. Sin embargo, la medición de los resultados de las campañas y el desempeño de los Influencers sigue siendo muy similar a la de otras modalidades de marketing, por ejemplo, de social media marketing (SMM). Por este motivo el objetivo del presente trabajo será sentar las bases para una nueva manera de medir y evaluar a los influenciadores cuantificando la influencia que generan utilizando únicamente métricas de acceso público (likes y comentarios). Para el desarrollo de esta nueva métrica se ponderaron las interacciones para equilibrar el sobre efecto de los likes en las interacciones totales y se categorizaron los comentarios según su contenido. El resultado es una ecuación que aproxima a cuantificar el efecto de los contenidos en la audiencia arrojando resultados diferentes a los obtenidos con la tasa de engagement.
Optimización de decisiones crediticias : un enfoque de modelado con Random Forest
(2023) Heliszkowski, Melina
En el ámbito financiero contemporáneo, la toma de decisiones en la concesión de créditos es crucial para garantizar un equilibrio entre el riesgo y la rentabilidad. La creciente disponibilidad de información y las nuevas tecnologías han revolucionado este proceso, permitiendo un análisis más preciso y efectivo. Este trabajo se enfoca en desarrollar un modelo para determinar el incumplimiento en la concesión de créditos a corto plazo. La metodología se basa en la utilización del algoritmo construido a partir de un modelo de Random Forest, una técnica de aprendizaje automático que ha demostrado ser eficaz en la predicción de resultados crediticios.
paskal : desarrollo de un paquete en R para la aplicación de inferencia estadística en auditorías de desempeño
(2024) Rubione, Martín Pablo
Revelando a los presuntos responsables “desconocidos” de asesinatos selectivos en el conflicto armado colombiano
(2023) Rozo Ángel, Valentina
El conflicto armado colombiano es uno de los más largos del hemisferio occidental. Sin embargo, conocer la responsabilidad de los distintos presuntos responsables resulta difícil, pues esta variable suele estar incompleta. La literatura establece que existen tres tipos de datos faltantes: completamente aleatorios, aleatorios y no aleatorios. Pero ¿qué tipo de datos faltantes es el presunto responsable? En este artículo utilizo los datos de asesinatos selectivos del Centro Nacional de Memoria Histórica y el algoritmo de missForest para estudiar el tipo de datos faltantes. Por medio de dos estrategias, dejando los NAs originales y eliminándolos, y por medio de un puntaje global propuesto, muestro que el algoritmo tiene un mejor desempeño con los NAs originales. Este es un indicio de que, tal y como indica la experiencia cualitativa, los campos faltantes de esta variable no son completamente aleatorios. Además, muestro que la responsabilidad de los paramilitares sería mayor a la actualmente documentada, siendo estos los principales responsables de asesinatos selectivos en Colombia.
Sistema de recomendación basado en el contenido de letras de canciones
(2024) Pernas Valcarce, Tomás
Si hablamos de música y más específicamente sobre su universo de letras de canciones nos vamos a encontrar con infinidades de posibilidades para explorar y explotar. Al ser un universo vasto y que crece exponencialmente día a día, puede resultar abrumador para los oyentes que buscan encontrar música que se ajuste a sus gustos personales. Este trabajo final integrador se enfoca en desarrollar un sistema de recomendación para analizar y determinar la similaridad entre las letras de canciones, otorgando en consecuencia una mejor precision al momento de ofrecer recomendaciones personalizadas que reflejen los gustos y preferencias del usuario, mejorando así su experiencia. Para lograr esto, se transformaron las letras a vectores utilizando la metodología GloVe, la cual es una técnica de incrustación de palabras que captura tanto la información de contexto local como global de las palabras. También utilizando el método de similaridad del coseno, se midió la proximidad entre las letras transformadas en vectores. Posteriormente, los datos obtenidos se ajustaron a una distribución del tipo beta para modelar adecuadamente la variabilidad y las características de la similaridad entre las letras de canciones. La metodología desarrollada en este trabajo final integrador no solo mejora la precisión en la identificación de letras similares, sino que también proporciona una base sólida para futuras investigaciones y aplicaciones en el campo del procesamiento del lenguaje natural. Adicionalmente, posee el potencial de ser adaptada y extendida a otros contextos, ofreciendo un marco flexible y potente para el análisis de similaridad de textos.

Browse

Browsing Departamento de Matemática y Ciencias by Title

Results Per Page

Sort Options