Reconocimiento de entidades en audios para la configuración de un Sistema de Comunicaciones de Voz de un Centro de Control de Área

Andrés Marcos, Juan Carlos

Fecha

2025-09

Director/a

Delgado Muñoz, Agustín Daniel

Derechos de acceso

info:eu-repo/semantics/openAccess

Citas

0 citas en

Resumen

El procesamiento de lenguaje natural (Natural Language Processing, NLP ) cada vez llega a más dominios, ya sean profesionales o domésticos. Dentro del NLP, tareas como el reconocimiento de voz (Automatic Speech Recognition, ASR) y la identificación de entidades nombradas (Named Entity Recognition, NER) constituyen un reto dentro del dominio de las comunicaciones del tráfico aéreo. En este trabajo proponemos ampliar el reto en las comunicaciones del tráfico aéreo, lle- vando el NLP al ámbito de los Sistemas de Comunicaciones de Voz (SCV ). A diferencia de otros trabajos centrados en la comunicación entre pilotos y controladores, este proyecto se enfoca en las tareas técnicas asociadas al sistema de configuración y monitorización técnica (Technical Monitoring and Control System, TMCS ), con el fin de automatizar órdenes verbales mediante su conversión a texto y posterior interpretación a través de la identificación de entidades nombradas. Para ello, se ha construido un corpus específico formado por 1.582 grabaciones, que constituye más de 3 horas de audio de voz realizadas por 11 personas, tanto en silencio como con ligero ruido de fondo. Las grabaciones fueron transcritas manualmente, añadiendo comandos y entidades, lo que permitió la construcción de un conjunto de datos adaptado al dominio de los SCV. La primera fase (ASR) evalúa dos modelos preentrenados: Whisper, basado en encoder-decoder Transformer, y el modelo de Jonatas Grosman basado en Wav2Vec2. Los resultados muestran que Whisper presenta una menor tasa de error de palabra (Word Error Rate, WER), especialmente en condiciones ruidosas. En la segunda fase (NER), se comparan modelos clásicos (CRF, SVM, spaCy) con otros de aprendizaje profundo (BERT, XLNet). El modelo basado en BERT destaca por su precisión, mientras que spaCy sobresale por sus métricas de sensibilidad. El análisis conjunto del pipeline ASR+NER muestra una pérdida de precisión respecto a los datos manuales, aunque los resultados siguen siendo válidos para usos operativos. Este trabajo demuestra que la aplicación de técnicas de procesamiento del lenguaje natural en el ámbito de los técnicos de los SCV es factible y efectiva, especialmente cuando se dispone de un corpus robusto. En este sentido, se plantean diversas líneas de mejora que pasan por ampliar el conjunto de datos o completar el sistema con la interpretación de comandos y entidades para conformar una configuración válida en la base de datos del TMCS.
Natural language processing (NLP ) is reaching more and more domains, professional or domestic. Within NLP, tasks such as automatic speech recognition (ASR) and named entity recognition (NER) constitute a challenge within the domain of air traffic communications. We propose in this paper to extend the challenge in air traffic communications by bringing NLP into the domain of Voice Communication Systems (VCS ). Unlike other works focused on communication between pilots and controllers, this project focuses on the technical tasks associated with the TMCS (Technical Monitoring and Control System), in order to automate verbal commands by converting them into text and then interpreting them by identifying named entities. For this purpose, a specific corpus has been constructed consisting of 1,582 recordings, which constitute more than 3 hours of voice audio made by 11 people, in silence and also with slight background noise. The recordings were manually transcribed, adding commands and entities, thus allowing the construction of a dataset adapted to the VCS domain. The first phase (ASR) evaluates two pre-trained models: Whisper’s model based on encoder-decoder Transformer, and Jonatas Grosman’s model based on Wav2Vec2. The results show that Whisper has a lower word error rate (WER), especially in noisy conditions. In the second phase (NER), classical models (CRF, SVM, spaCy) are compared with deep learning models (BERT, XLNet). The model based on BERT stands out for its accuracy, while spaCy stands out for its sensitivity metrics. The joint analysis of the ASR+NER pipeline shows a loss of accuracy compared to manual data, although the results are still valid for operational uses. The paper demonstrates that the application of natural language processing techniques to the domain of the SCV technicians is feasible and effective, especially when a robust corpus is available. In this sense, several lines of improvement are proposed, such as extending the dataset or completing the system with the interpretation of commands and entities to form a valid configuration in the TMCS database.

Palabras clave

Control de Tráfico Aéreo, Sistema de Comunicaciones de Voz, Procesamiento de Lenguaje Natural, Reconocimiento Automático de Voz, Reconocimiento de Entidades Nombradas, Air Traffic Control, Voice Communication System, Natural Language Processing, Automatic Speech Recognition, Named Entity Recognition

Citación

Andrés Marcos, Juan Carlos. Trabajo Fin de Máster: "Reconocimiento de entidades en audios para la configuración de un Sistema de Comunicaciones de Voz de un Centro de Control de Área". Universidad Nacional de Educación a Distancia (UNED), 2025

Centro

E.T.S. de Ingeniería Informática

Handle

https://hdl.handle.net/20.500.14468/30309

Colecciones

Trabajos de fin de máster (TFM)

Página completa del ítem

Fecha

Editor/a

Director/a

Tutor/a

Coordinador/a

Prologuista

Revisor/a

Ilustrador/a

Derechos de acceso

Título de la revista

ISSN de la revista

Título del volumen

Editorial

Citas

Proyectos de investigación

Unidades organizativas

Número de la revista

Resumen

Descripción

Categorías UNESCO

Palabras clave

Citación

Centro

Departamento

Grupo de investigación

Grupo de innovación

Programa de doctorado

Cátedra

Datos de investigación relacionados

Handle

DOI

Colecciones