Departamento de Matemática y Ciencias
Permanent URI for this community
Browse
Browsing Departamento de Matemática y Ciencias by Title
Results Per Page
Sort Options
- ItemAnálisis de series de tiempo de funciones de densidad con aplicación al sector aeroespacial(2023) Lupi, NicolásEl objetivo del trabajo es comparar distintos métodos para proyectar la evolución de una función de densidad en el tiempo. En concreto, dado un conjunto de observaciones generadas por un proceso aleatorio a lo largo del tiempo, nos interesa caracterizar la evolución del mismo para poder predecirlo a futuro. La motivación es poder generar muestras de una nueva distribución condicional al paso del tiempo, si bien podría condicionarse a otra variable según el problema. El disparador de este análisis es un estudio que se quiere realizar sobre el cambio a lo largo de los años de las características que tienen los lanzamientos de satélites a órbita, en particular sobre la masa de los mismos. A partir de los datos, para cada año se puede obtener un estimador de la densidad de la masa de los satélites. En base a estas estimaciones se busca predecir las densidades para los próximos años. Se proponen tres métodos alternativos. El primer enfoque es paramétrico y asume que la secuencia de distribuciones proviene de una familia paramétrica y que las observaciones futuras también pertenecerán a la misma familia. Luego, el problema se reduce en modelar mediante series de tiempo los parámetros de dichas distribuciones. El segundo enfoque es no paramétrico y se basa en el Análisis de Componentes Principales Funcionales (FPCA en inglés): considerando las densidades como una secuencia de datos funcionales, los mismos serán representados en una base conveniente de funciones ponderadas por escalares que variarán a lo largo del tiempo. Con estos escalares se construirá una serie de tiempo para proyectar a futuro. Por último, el método de Redes Adversarias Generativas Condicionales (cGAN por sus siglas en inglés) es un enfoque innovador que buscará entrenar un modelo para generar muestras nuevas similares a las reales teniendo en cuenta el período para el cual serán generadas. Al igual que el segundo método, este no hace ningún supuesto sobre las distribuciones, pero a diferencia del anterior no requiere construir ni proyectar ninguna serie de tiempo. Este trabajo presenta la siguiente estructura: en el Capítulo 1 se introduce la motivación del problema y en el Capítulo 2 se describen las tres propuestas metodológicas. El Capítulo 3 está abocado a analizar sus desempeño en conjuntos de datos simulados. En el cuarto capítulo se analizan los datos correspondientes a los pesos de los satélites. Finalmente, se presentan las conclusiones del trabajo.
- ItemClustering en alta dimensión : identificación de variables relevantes en datos mixtos(2023) Martiarena, GriseldaLa aceleración del progreso tecnológico ha generado nuevos desafíos y oportunidades para la supervisión bancaria. El desarrollo y la aplicación de herramientas que facilitan y potencian su tarea es una de ellas. En este sentido, este trabajo aborda la clusterización de las entidades financieras argentinas, a partir de una cantidad considerable de información pública estructurada, y la identificación de las variables relevantes en este proceso. Para ello, se apoya en el empleo de un algoritmo genético y de la metodología de blinding para la selección de variables. En particular, amplía la aplicación de este último enfoque, no sólo a conjuntos de datos con variables numéricas, categóricas y binarias, sino también a métodos de clustering por particiones, siendo este el principal aporte metodológico. Adicionalmente, procura ofrecer una herramienta que permita entender más a fondo el ecosistema bancario en un contexto de volúmenes crecientes de datos. Los resultados finales obtenidos son satisfactorios, confirmando la solidez y utilidad de la estrategia de ocultamiento.
- ItemFootprint y clasificación de señales de audio para identificación de hablantes(2023) Pastorino, Martin Ignacio
- ItemHerramientas de inteligencia artificial en la lucha contra la violencia de género digital : un estudio con enfoque en el español rioplatense(2024-01) Luvini, Paula SabrinaEl abuso y la violencia digital puede describirse como aquel discurso que ejerce violencia y acoso a través de redes sociales como WhatsApp, Facebook, Twitter, entre otras plataformas. Desde la proliferación de estas plataformas digitales, este tipo de discurso ha tomado gran relevancia en redes sociales, dando lugar a formas específicas de acoso digital y haciendo la definición de abuso en línea compleja. En este sentido, diversos estados y organizaciones de la sociedad civil han estudiado el tema y tomado acciones para moderar el contenido abusivo en línea, además de las acciones propias que las empresas pueden tomar. También se implementaron protocolos en caso de ser víctima de violencia digital. Varios estudios internacionales y locales revelan que las mujeres y otras identidades feminizadas sufren altos índices de acoso virtual. Esto tiene varias consecuencias, como un impacto negativo en la salud mental de las víctimas o en la participación política de las mujeres, evidenciado por testimonios que muestran cómo recibir amenazas e insultos en línea puede condicionar su vida política. Los estudios que analizan la violencia digital hacia las mujeres suelen emplear encuestas o entrevistas para comprender la profundidad del impacto en las víctimas. Sin embargo, estas metodologías pueden limitar la visión general. Por este motivo, en esta tesis queremos abordar esta limitación introduciendo un modelo que puede detectar diversos tipos de sentimiento en los tweets que mujeres que están inmersas en la política y el ámbito público pueden sufrir. Para ello, utilizamos un dataset que fue construido para un proyecto solicitado por PNUD Uruguay, el Instituto Nacional de las Mujeres del gobierno de Uruguay y la Embajada Británica de Montevideo. El dataset fue construido en un proceso de anotación con dos grupos de anotadores uruguayos que debían clasificar varias cosas de cada tweet recibido, entre ellas si los tweets eran dirigidos o no y si se trataban de tweets abusivos, críticos, neutrales, positivos o de contra-abuso. Se anotaron 9.000 tweets en total, seleccionados aleatoriamente y mediante active learning para optimizar la eficiencia del modelo. A partir de la construcción de este dataset se evaluó el agreement entre anotadores y la calidad del mismo encontrando resultados alentadores. Luego se realizó un benchmarking con los principales transformers pre entrenados de lenguaje (Bert, Roberta, Robertuito, Electra y Bertin) y se comparó el desempeño de cada uno. El modelo que mostraba mejores resultados en el dataset de validación fue Robertuito, con el que se evaluó el modelo final y se realizó un análisis de resultados y de error detallado para evaluar próximos pasos a seguir en futuros trabajos.
- ItemInmigración en películas : un análisis utilizando aprendizaje automático a partir de los subtítulos(2024) Brau, WendyEste trabajo caracteriza el contenido de inmigración de las películas a partir del texto de más de 27 mil subtítulos. Primero, se usa una combinación de Fast K-Medoids, Random Forest y clustering jerárquico para definir temáticas estables e interpretables que estén sistemáticamente asociadas al contenido de inmigración. Segundo, se entrenan varios modelos supervisados con el objetivo de construir un índice continuo del grado de contenido de inmigración en cada película. Finalmente, se explora la asociación entre el consumo en cines de películas con mayor o menor contenido sobre inmigración y las dinámicas reales de inmigración.
- ItemMétricas para la influencia de una campaña en redes sociales(2022) Brito, ManuelLa publicidad con Influencers es una actividad del marketing en crecimiento y se estima que para finales de 2022 la inversión en ellos será de U$D 15 mil millones a nivel mundial. Sin embargo, la medición de los resultados de las campañas y el desempeño de los Influencers sigue siendo muy similar a la de otras modalidades de marketing, por ejemplo, de social media marketing (SMM). Por este motivo el objetivo del presente trabajo será sentar las bases para una nueva manera de medir y evaluar a los influenciadores cuantificando la influencia que generan utilizando únicamente métricas de acceso público (likes y comentarios). Para el desarrollo de esta nueva métrica se ponderaron las interacciones para equilibrar el sobre efecto de los likes en las interacciones totales y se categorizaron los comentarios según su contenido. El resultado es una ecuación que aproxima a cuantificar el efecto de los contenidos en la audiencia arrojando resultados diferentes a los obtenidos con la tasa de engagement.
- ItemOptimización de decisiones crediticias : un enfoque de modelado con Random Forest(2023) Heliszkowski, MelinaEn el ámbito financiero contemporáneo, la toma de decisiones en la concesión de créditos es crucial para garantizar un equilibrio entre el riesgo y la rentabilidad. La creciente disponibilidad de información y las nuevas tecnologías han revolucionado este proceso, permitiendo un análisis más preciso y efectivo. Este trabajo se enfoca en desarrollar un modelo para determinar el incumplimiento en la concesión de créditos a corto plazo. La metodología se basa en la utilización del algoritmo construido a partir de un modelo de Random Forest, una técnica de aprendizaje automático que ha demostrado ser eficaz en la predicción de resultados crediticios.
- ItemRevelando a los presuntos responsables “desconocidos” de asesinatos selectivos en el conflicto armado colombiano(2023) Rozo Ángel, ValentinaEl conflicto armado colombiano es uno de los más largos del hemisferio occidental. Sin embargo, conocer la responsabilidad de los distintos presuntos responsables resulta difícil, pues esta variable suele estar incompleta. La literatura establece que existen tres tipos de datos faltantes: completamente aleatorios, aleatorios y no aleatorios. Pero ¿qué tipo de datos faltantes es el presunto responsable? En este artículo utilizo los datos de asesinatos selectivos del Centro Nacional de Memoria Histórica y el algoritmo de missForest para estudiar el tipo de datos faltantes. Por medio de dos estrategias, dejando los NAs originales y eliminándolos, y por medio de un puntaje global propuesto, muestro que el algoritmo tiene un mejor desempeño con los NAs originales. Este es un indicio de que, tal y como indica la experiencia cualitativa, los campos faltantes de esta variable no son completamente aleatorios. Además, muestro que la responsabilidad de los paramilitares sería mayor a la actualmente documentada, siendo estos los principales responsables de asesinatos selectivos en Colombia.