Evaluación automática de modelos de lenguaje mediante validación cruzada con LLMs

García Cantos, José Francisco

Fecha

2025

Director/a

Rodríguez Anaya, Antonio
Buendía Ramón, Vicente

Derechos de acceso

info:eu-repo/semantics/openAccess

Citas

0 citas en

Resumen

Las administraciones públicas requieren de sistemas que sean capaces de buscar soluciones y generar respuestas a las dudas de los ciudadanos. Actualmente, nos encontramos en la transición entre sistemas de gestión de base de datos tradicionales a nuevas tecnologías que pueden servir de aceleradores a los procedimientos lentos y burocráticos. La Administración de la Generalitat Valenciana está en fase de pruebas en el desarrollo de diferentes chats conversacionales, junto a la recuperación de información de fuentes externas (RAG), permite obtener respuestas a nuestras preguntas, o en caso contrario, indicar su desconocimiento, a diferencia de los modelos LLM clásicos. En este proyecto se ha trabajado en diferentes soluciones que se necesita conocer si son confiables, por esa razón, se vuelven a generar nuevas respuestas a las mismas preguntas. En el proyecto se hace uso de RAGAS, una librería Python que proporciona la posibilidad de optimizar la evaluación de Modelos LLM, para comparar las respuestas de nuestros modelos a evaluar con las respuestas de referencia y para analizar el uso del contexto en la construcción de las soluciones. Nuestro código ofrece diferentes métricas para comprender la calidad del nuevo chatbot a producir. La creación de las preguntas y respuestas que consideremos como verdad fundamental se pueden realizar mediante diferentes métodos desde su extracción y resolución a través del esfuerzo humano, hasta el uso de modelos del lenguaje que de acuerdo con sus características tenga un alto nivel de confianza para sustituir el trabajo manual. En este trabajo, en sustitución de los recursos humanos y para automatizar procesos, se prepara un pool de preguntas generadas a través de un modelo comercial, en particular, ChatGPT y sus correspondientes respuestas. El proyecto además pretende que un sistema conversacional diferente al que se está utilizando para generar las respuestas, también se pueda apoyar en los mismos desarrollos de evaluación con un coste de migración prácticamente nulo.
Public administrations require systems capable of finding solutions and generating answers to citizens' questions. We are currently transitioning from traditional database management systems to new technologies that can accelerate slow and bureaucratic procedures. The Valencian Government Administration is in the testing phase of developing various conversational chats. These chatbots, along with information retrieval from external sources (RAG), allow us to obtain answers to our questions, or, if not, to indicate our lack of knowledge, unlike traditional LLM models. This project has developed various solutions whose reliability is key, and for this reason, new answers are generated to the same questions. The project uses RAGAS, a Python library that provides the ability to optimize the evaluation of LLM models, to compare the responses of our models to be evaluated with reference responses, and to analyze the use of context in the construction of solutions. Our code offers various metrics to understand the quality of the new chatbot to be produced. The creation of questions and answers that we consider ground truth can be achieved through various methods, from extraction and resolution through human effort to the use of language models that, based on their characteristics, have a high level of confidence to replace manual work. In this work, to replace human resources and automate processes, a pool of questions generated through a commercial model, specifically ChatGPT, and their corresponding answers are prepared. The project also aims to enable a conversational system other than the one being used to generate the answers to be supported by the same evaluation developments with a practically zero migration cost.

Palabras clave

LLM, Transformers, RAG, Administración Pública, RAGAS, evaluación de modelos, automatización de procesos, métricas de calidad, ciencia de datos, LLM, Transformers, RAG, Public Administration, RAGAS, model evaluation, process automation, quality metrics, data science

Citación

García Cantos, José Francisco. Trabajo Fin de Máster: "Evaluación automática de modelos de lenguaje mediante validación cruzada con LLMs". Universidad Nacional de Educación a Distancia (UNED), 2025

Centro

E.T.S. de Ingeniería Informática

Handle

https://hdl.handle.net/20.500.14468/30311

Colecciones

Trabajos de fin de máster (TFM)

Página completa del ítem

Fecha

Editor/a

Director/a

Tutor/a

Coordinador/a

Prologuista

Revisor/a

Ilustrador/a

Derechos de acceso

Título de la revista

ISSN de la revista

Título del volumen

Editorial

Citas

Proyectos de investigación

Unidades organizativas

Número de la revista

Resumen

Descripción

Categorías UNESCO

Palabras clave

Citación

Centro

Departamento

Grupo de investigación

Grupo de innovación

Programa de doctorado

Cátedra

Datos de investigación relacionados

Handle

DOI

Colecciones