García Martínez, Alfonso2025-10-022025-10-022025-09García Martínez, Alfonso. Trabajo Fin de Máster: "Sistema multimodal de aprendizaje federado para la descripción de imágenes satelitales". Universidad Nacional de Educación a Distancia (UNED), 2025https://hdl.handle.net/20.500.14468/30312Las imágenes en teledetección, tales como las captadas por satélites, contienen un alto grado de informacióm espacial y espectral, y tradicionalmente han sido los expertos en el área los encargados de hacer el etiquetado manual del contenido de las mismas. Es aquí donde entran en juego los modelos visuales de lenguaje, que combinan la visión por computador y el procesamiento de lenguaje natural, y permiten la anotación automática de las imágenes en teledetección, lo cual ha aumentado considerablemente la cantidad de datos disponibles. Existe, no obstante, un problema a la hora de recopilar este tipo de imágenes para entrenar modelos visuales de lenguaje, y es que, a menudo, se tratan de datos privados o sensibles recopilados por entidades gubernamentales, lo que conlleva altos requisitos de seguridad. Por ello, el aprendizaje federado es una modalidad muy adecuada para construir sistemas inteligentes para imágenes en teledetección, pues nos permite entrenar modelos de forma dis- tribuida sin tener que enviar ni compartir los datos entre nodos, asegurando de esta forma su privacidad. En este trabajo, combinaremos ambos paradigmas para desarrollar y entrenar un sistema federado con imágenes satelitales y sus correspondientes anotaciones textuales, que sea capaz de describir automáticamente nuevas imágenes de lugares distintos a los de aquellas con las que ha sido entrenado.Remote sensing images, such as those captured by satellites, contain a high degree of spatial and spectral information, and traditionally, experts in the field have been responsible for manually labeling their content. This is where visual language models step in, combining computer vision and natural language processing to enable automatic annotation of remote sensing images, which has significantly increased the amount of available data. However, there is a problem when it comes to collecting this type of image to train visual language models, which is that they are often private or sensitive data that is collected by government entities, and therefore have high security requirements. For this reason, federated learning is a very suitable method for building intelligent systems for remote sensing images, since it allows us to train models in a distributed manner without having to send or share data between nodes, thus ensuring privacy. In this work, we will combine both paradigms to develop and train a federated system with satellite images and their corresponding textual annotations, which will be capable of automatically generating captions to describe new images of places different from those used for training.esinfo:eu-repo/semantics/openAccess1203.17 InformáticaSistema multimodal de aprendizaje federado para la descripción de imágenes satelitalestesis de maestríamodelos visuales de lenguajeteledeteccióndescripción de imágenesaprendizaje federadoaprendizaje profundovision-language modelsremote sensingimage captioningfederated learningdeep learning