Publicación:
Evaluación automática de modelos de lenguaje mediante validación cruzada con LLMs

dc.contributor.authorGarcía Cantos, José Francisco
dc.contributor.directorRodríguez Anaya, Antonio
dc.contributor.directorBuendía Ramón, Vicente
dc.date.accessioned2025-10-02T14:47:02Z
dc.date.available2025-10-02T14:47:02Z
dc.date.issued2025
dc.description.abstractLas administraciones públicas requieren de sistemas que sean capaces de buscar soluciones y generar respuestas a las dudas de los ciudadanos. Actualmente, nos encontramos en la transición entre sistemas de gestión de base de datos tradicionales a nuevas tecnologías que pueden servir de aceleradores a los procedimientos lentos y burocráticos. La Administración de la Generalitat Valenciana está en fase de pruebas en el desarrollo de diferentes chats conversacionales, junto a la recuperación de información de fuentes externas (RAG), permite obtener respuestas a nuestras preguntas, o en caso contrario, indicar su desconocimiento, a diferencia de los modelos LLM clásicos. En este proyecto se ha trabajado en diferentes soluciones que se necesita conocer si son confiables, por esa razón, se vuelven a generar nuevas respuestas a las mismas preguntas. En el proyecto se hace uso de RAGAS, una librería Python que proporciona la posibilidad de optimizar la evaluación de Modelos LLM, para comparar las respuestas de nuestros modelos a evaluar con las respuestas de referencia y para analizar el uso del contexto en la construcción de las soluciones. Nuestro código ofrece diferentes métricas para comprender la calidad del nuevo chatbot a producir. La creación de las preguntas y respuestas que consideremos como verdad fundamental se pueden realizar mediante diferentes métodos desde su extracción y resolución a través del esfuerzo humano, hasta el uso de modelos del lenguaje que de acuerdo con sus características tenga un alto nivel de confianza para sustituir el trabajo manual. En este trabajo, en sustitución de los recursos humanos y para automatizar procesos, se prepara un pool de preguntas generadas a través de un modelo comercial, en particular, ChatGPT y sus correspondientes respuestas. El proyecto además pretende que un sistema conversacional diferente al que se está utilizando para generar las respuestas, también se pueda apoyar en los mismos desarrollos de evaluación con un coste de migración prácticamente nulo.es
dc.description.abstractPublic administrations require systems capable of finding solutions and generating answers to citizens' questions. We are currently transitioning from traditional database management systems to new technologies that can accelerate slow and bureaucratic procedures. The Valencian Government Administration is in the testing phase of developing various conversational chats. These chatbots, along with information retrieval from external sources (RAG), allow us to obtain answers to our questions, or, if not, to indicate our lack of knowledge, unlike traditional LLM models. This project has developed various solutions whose reliability is key, and for this reason, new answers are generated to the same questions. The project uses RAGAS, a Python library that provides the ability to optimize the evaluation of LLM models, to compare the responses of our models to be evaluated with reference responses, and to analyze the use of context in the construction of solutions. Our code offers various metrics to understand the quality of the new chatbot to be produced. The creation of questions and answers that we consider ground truth can be achieved through various methods, from extraction and resolution through human effort to the use of language models that, based on their characteristics, have a high level of confidence to replace manual work. In this work, to replace human resources and automate processes, a pool of questions generated through a commercial model, specifically ChatGPT, and their corresponding answers are prepared. The project also aims to enable a conversational system other than the one being used to generate the answers to be supported by the same evaluation developments with a practically zero migration cost.en
dc.identifier.citationGarcía Cantos, José Francisco. Trabajo Fin de Máster: "Evaluación automática de modelos de lenguaje mediante validación cruzada con LLMs". Universidad Nacional de Educación a Distancia (UNED), 2025
dc.identifier.urihttps://hdl.handle.net/20.500.14468/30311
dc.language.isoes
dc.relation.centerE.T.S. de Ingeniería Informática
dc.relation.degreeMáster universitario en Ingeniería y Ciencia de Datos
dc.rightsinfo:eu-repo/semantics/openAccess
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/deed.es
dc.subject1203.17 Informática
dc.subject.keywordsLLMes
dc.subject.keywordsTransformerses
dc.subject.keywordsRAGes
dc.subject.keywordsAdministración Públicaes
dc.subject.keywordsRAGASes
dc.subject.keywordsevaluación de modeloses
dc.subject.keywordsautomatización de procesoses
dc.subject.keywordsmétricas de calidades
dc.subject.keywordsciencia de datoses
dc.subject.keywordsLLMen
dc.subject.keywordsTransformersen
dc.subject.keywordsRAGen
dc.subject.keywordsPublic Administrationen
dc.subject.keywordsRAGASen
dc.subject.keywordsmodel evaluationen
dc.subject.keywordsprocess automationen
dc.subject.keywordsquality metricsen
dc.subject.keywordsdata scienceen
dc.titleEvaluación automática de modelos de lenguaje mediante validación cruzada con LLMses
dc.typetesis de maestríaes
dc.typemaster thesisen
dspace.entity.typePublication
Archivos
Bloque original
Mostrando 1 - 1 de 1
Cargando...
Miniatura
Nombre:
GarciaCantos_JoseFrancisco_TFM_JORGE PEREZ MARTIN.pdf
Tamaño:
2.34 MB
Formato:
Adobe Portable Document Format
Bloque de licencias
Mostrando 1 - 1 de 1
No hay miniatura disponible
Nombre:
license.txt
Tamaño:
3.62 KB
Formato:
Item-specific license agreed to upon submission
Descripción: