Dueñas Romero, SaraMartínez Cámara, Eugenio2025-12-172025-12-172025-01-01Dueñas Romero, Sara. Trabajo de fin de Máster: "Búsqueda de Respuestas en Español: Comparativa entre enfoques clásicos y modernos". Univerisdad Nacional de Educación a Distancia (UNED), (2025)https://hdl.handle.net/20.500.14468/31204Este Trabajo de Fin de Máster investiga la diferencia de rendimiento entre los métodos clásicos de Búsqueda de Respuestas (QA) basados en la recuperación de información (RI) y los enfoques modernos de embeddings y generación para la QA en español, utilizando la colección de la tarea CLEF 2005 QA como punto de referencia histórico. El trabajo persigue tres objetivos: (1) comparar los métodos de recuperación basados en estadísticas de términos (TF, TF-IDF, BM25) con la recuperación de word embeddings (recuperación semántica); (2) contrastar los procesos extractivos basados únicamente en encoders con las arquitecturas de Generación Aumentada por Recuperación (RAG) impulsadas por Modelos de Lenguaje a Gran Escala (LLM) basados únicamente en decoders; y (3) analizar el comportamiento por tipo de pregunta (definición, factual, con restricción temporal) mediante un diseño experimental combinatorio. La configuración experimental comprende 36 ejecuciones que mezclan tres configuraciones con índices FAISS, clasificadores clásicos y varios modelos basados en transformers (como bert-base-spanish, variantes de RoBERTa, Llama-3.1, Qwen2.5 y gemma-2 ). La evaluación utiliza métricas para la RI y las métricas de respuesta automática (coincidencia exacta, F1, BLEU, BERTScore), complementadas con un análisis manual de errores. Las conclusiones principales muestran que los sistemas RAG con recuperación semántica suelen superar a los procesos basados únicamente en encoders para preguntas factuales y temporales, mientras que los sistemas basados únicamente en encoders siguen siendo más eficaces en preguntas de definición en las que la extracción literal y la trazabilidad son importantes; además, ciertas combinaciones de RAG alcanzan un alto rendimiento en la detección de preguntas NIL (sin respuesta). Este trabajo también hace hincapié en que la comparación numérica directa con CLEF 2005 debe realizarse con cautela, ya que la precisión basada en humanos de CLEF no es directamente comparable con la estricta métrica EM utilizada aquí; las métricas semánticas (F1, BERTScore) ayudan a salvar esa diferencia.This Master’s thesis investigates the performance gap between classical IR–based QA methods and modern embedding-and-generation approaches for Spanish Question Answering, using the CLEF 2005 QA collection as a historical reference point. The work pursues three objectives: (1) compare recovery methods based on term statistics (TF, TF–IDF, BM25) against dense-embedding retrieval (FAISS with multiple sentence-transformers); (2) contrast encoder-only extractive pipelines with Retrieval-Augmented Generation (RAG) architectures driven by decoder-only LLMs; and (3) analyse behaviour by question type (definition, factoid, temporal) through a combinatorial experimental design. The experimental setup comprises 36 runs mixing three FAISS configurations, classical rankers and several reader/generator models (e.g. bert-base-spanish, RoBERTa variants, Llama-3.1, Qwen2.5, gemma-2). Evaluation uses DocRelevance for retrieval and automatic response metrics (Exact Match, F1, BLEU, BERTScore), complemented with manual error analysis. Key findings show that RAG systems with semantic retrieval typically outperform encoder-only pipelines on factoid and temporal questions, while encoder-only readers remain stronger for definition questions where literal extraction and traceability matter; moreover, certain FAISS+LLM combinations achieve high performance on NIL (no-answer) detection (Exact Match 0.7273). The thesis also emphasises that direct numeric comparison with CLEF 2005 must be made cautiously because CLEF’s human-based accuracy is not directly commensurable with the strict EM metric used here; semantic metrics (F1, BERTScore) help bridge that gap.esinfo:eu-repo/semantics/openAccess1203.04 Inteligencia artificialBúsqueda de Respuestas en Español: Comparativa entre enfoques clásicos y modernostesis de maestríaBúsqueda de RespuestasModelos de Lenguaje a Gran EscalaRAGInteligencia Artificial GenerativaQuestion AnsweringRAGGenerative Artificial IntelligenceLarge Language Models