Cargando...
Miniatura
Fecha
2025-01-01
Editor/a
Tutor/a
Coordinador/a
Prologuista
Revisor/a
Ilustrador/a
Derechos de acceso
info:eu-repo/semantics/openAccess
Título de la revista
ISSN de la revista
Título del volumen
Editorial

Citas

plumx
0 citas en WOS
0 citas en
Proyectos de investigación
Unidades organizativas
Número de la revista
Resumen
The proliferation of fake news on social media poses a critical challenge to information integrity, making the development of robust fake news detection methods necessary. While most existing research focuses on evaluating models on data sets that are similar in nature to those used during their training — in terms of topic, domain, or publication time — there is limited understanding of whether such models can maintain performance when applied to different, unseen types of data. This raises the important question of whether fake news detection systems can generalise across diverse datasets. In this master’s thesis, we investigate the generalisation capability of both a classification model and contextualized word representations for fake news detection, focusing on the model’s performance when evaluated on data sets not seen during its training. We employ a transformer-based model as feature extractor to obtain contextualized word representations and evaluate their effectiveness when used in a classifier model on multiple data sets. The study explores two experimental setups based on the training set used to train the classifier: SingleTrain Cross-Test (ST-CT) and Leave-One-Train-Out Cross-Test (LOTO-CT), assessing to what extent a classifier model, trained on one data set, generalise on unseen data during its training. The results indicate that contextualized embeddings provide the classifier, in some cases, with a good generalisation capability when trained and evaluated on the training and test splits of the same data set (local generalisation), but the classifier does not generalise when evaluated on a test the generalisation of fake news detection systems to develop systems that generalise globally, and emphasise that their evaluation should account for different data distributions to ensure that models are not only accurate but also adaptable in real-word settings.
La proliferación de noticias falsas en las redes sociales supone un desafío crítico para la integridad de la información, haciendo necesario el desarrollo de métodos de detección de noticias falsas robustos. La mayoría de las investigaciones existentes se centran en evaluar modelos utilizando conjuntos de datos que son similares a aquellos empleados durante su entrenamiento, ya sea en términos de tema, dominio o periodo de publicación. Sin embargo, existe un conocimiento limitado sobre si dichos modelos pueden mantener su rendimiento cuando se evalúan con tipos de datos diferentes y no vistos previamente. Esto plantea la importante cuestión de si los sistemas de detección de noticias falsas pueden generalizar a través de conjuntos de datos diversos. En esta tesis de máster, investigamos la capacidad de generalización tanto de un modelo de clasificación como de las representaciones de palabras contextualizadas para la detección de noticias falsas, centrándonos en el rendimiento del modelo cuando es evaluado sobre colecciones de datos no vistas durante su entrenamiento. Empleamos un modelo basado en un transformer como extractor de características para obtener representaciones de palabras contextualizadas y evaluamos su eficacia cuando se utilizan en un clasificador sobre múltiples conjuntos de datos. El estudio explora dos configuraciones experimentales basadas en el conjunto de entrenamiento utilizado para entrenar el clasificador: Single-Train Cross-Test (ST-CT) y Leave-One-Train-Out Cross-Test (LOTO-CT), evaluando en qué medida un modelo entrenado en un conjunto de datos generaliza sobre datos no vistos en el entrenamiento de tal modelo. Los resultados indican que los embeddings contextualizados dotan al clasificador, en algunos casos, de buena capacidad de generalización cuando es entrenado y evaluado sobre las particiones de entrenamiento y prueba de un mismo conjunto de datos (generalización local), pero el clasificador no generaliza cuando es evaluado sobre la partición de pruebas de otro conjunto de datos (generalización global). Nuestros hallazgos resaltan la necesidad de mejorar la generalización de los sistemas de detección automática de noticias falsas para desarollar sistemas que generalicen globalmente, y enfatizan que en su evaluación se debe tener en cuenta diferentes distribuciones de datos para garantizar que los modelos no solo sean precisos, sino también adaptables a contextos del mundo real.
Descripción
Categorías UNESCO
Palabras clave
Citación
Domínguez Calvo, Álvaro. Trabajo de fin de Máster: "A study On Generalisation of Transformer-Based Word Representations for Automatic Fake News Detection". Universidad Nacional de Educación a Distancia (UNED), (2025)
Centro
E.T.S. de Ingeniería Informática
Departamento
Lenguajes y Sistemas Informáticos
Grupo de investigación
Grupo de innovación
Programa de doctorado
Cátedra
Datos de investigación relacionados
DOI