Cargando...
Miniatura
Fecha
2025
Editor/a
Tutor/a
Coordinador/a
Prologuista
Revisor/a
Ilustrador/a
Derechos de acceso
info:eu-repo/semantics/openAccess
Título de la revista
ISSN de la revista
Título del volumen
Editorial

Citas

plumx
0 citas en WOS
0 citas en
Proyectos de investigación
Unidades organizativas
Número de la revista
Resumen
Las administraciones públicas requieren de sistemas que sean capaces de buscar soluciones y generar respuestas a las dudas de los ciudadanos. Actualmente, nos encontramos en la transición entre sistemas de gestión de base de datos tradicionales a nuevas tecnologías que pueden servir de aceleradores a los procedimientos lentos y burocráticos. La Administración de la Generalitat Valenciana está en fase de pruebas en el desarrollo de diferentes chats conversacionales, junto a la recuperación de información de fuentes externas (RAG), permite obtener respuestas a nuestras preguntas, o en caso contrario, indicar su desconocimiento, a diferencia de los modelos LLM clásicos. En este proyecto se ha trabajado en diferentes soluciones que se necesita conocer si son confiables, por esa razón, se vuelven a generar nuevas respuestas a las mismas preguntas. En el proyecto se hace uso de RAGAS, una librería Python que proporciona la posibilidad de optimizar la evaluación de Modelos LLM, para comparar las respuestas de nuestros modelos a evaluar con las respuestas de referencia y para analizar el uso del contexto en la construcción de las soluciones. Nuestro código ofrece diferentes métricas para comprender la calidad del nuevo chatbot a producir. La creación de las preguntas y respuestas que consideremos como verdad fundamental se pueden realizar mediante diferentes métodos desde su extracción y resolución a través del esfuerzo humano, hasta el uso de modelos del lenguaje que de acuerdo con sus características tenga un alto nivel de confianza para sustituir el trabajo manual. En este trabajo, en sustitución de los recursos humanos y para automatizar procesos, se prepara un pool de preguntas generadas a través de un modelo comercial, en particular, ChatGPT y sus correspondientes respuestas. El proyecto además pretende que un sistema conversacional diferente al que se está utilizando para generar las respuestas, también se pueda apoyar en los mismos desarrollos de evaluación con un coste de migración prácticamente nulo.
Public administrations require systems capable of finding solutions and generating answers to citizens' questions. We are currently transitioning from traditional database management systems to new technologies that can accelerate slow and bureaucratic procedures. The Valencian Government Administration is in the testing phase of developing various conversational chats. These chatbots, along with information retrieval from external sources (RAG), allow us to obtain answers to our questions, or, if not, to indicate our lack of knowledge, unlike traditional LLM models. This project has developed various solutions whose reliability is key, and for this reason, new answers are generated to the same questions. The project uses RAGAS, a Python library that provides the ability to optimize the evaluation of LLM models, to compare the responses of our models to be evaluated with reference responses, and to analyze the use of context in the construction of solutions. Our code offers various metrics to understand the quality of the new chatbot to be produced. The creation of questions and answers that we consider ground truth can be achieved through various methods, from extraction and resolution through human effort to the use of language models that, based on their characteristics, have a high level of confidence to replace manual work. In this work, to replace human resources and automate processes, a pool of questions generated through a commercial model, specifically ChatGPT, and their corresponding answers are prepared. The project also aims to enable a conversational system other than the one being used to generate the answers to be supported by the same evaluation developments with a practically zero migration cost.
Descripción
Categorías UNESCO
Palabras clave
LLM, Transformers, RAG, Administración Pública, RAGAS, evaluación de modelos, automatización de procesos, métricas de calidad, ciencia de datos, LLM, Transformers, RAG, Public Administration, RAGAS, model evaluation, process automation, quality metrics, data science
Citación
García Cantos, José Francisco. Trabajo Fin de Máster: "Evaluación automática de modelos de lenguaje mediante validación cruzada con LLMs". Universidad Nacional de Educación a Distancia (UNED), 2025
Centro
E.T.S. de Ingeniería Informática
Departamento
Grupo de investigación
Grupo de innovación
Programa de doctorado
Cátedra
Datos de investigación relacionados
DOI