Logotipo del repositorio
  • English
  • Español
  • Français
  • Iniciar sesión
    Identificación habilitada exclusivamente para personal de Biblioteca.
    ¿Has olvidado tu contraseña?
Logotipo del repositorio
  • Comunidades
  • Filtrar búsqueda
  • Depositar
  • English
  • Español
  • Français
  • Iniciar sesión
    Identificación habilitada exclusivamente para personal de Biblioteca.
    ¿Has olvidado tu contraseña?
  1. Inicio
  2. Buscar por autor

Examinando por Autor "Araujo Serna, M. Lourdes"

Mostrando 1 - 20 de 34
Resultados por página
Opciones de ordenación
  • Cargando...
    Miniatura
    Publicación
    A keyphrase-based approach for interpretable ICD-10 code classification of Spanish medical reports
    (Elsevier, 2021) Fabregat Marcos, Hermenegildo; Duque Fernández, Andrés; Araujo Serna, M. Lourdes; Martínez Romo, Juan
    Background and objectives: The 10th version of International Classification of Diseases (ICD-10) codification system has been widely adopted by the health systems of many countries, including Spain. However, manual code assignment of Electronic Health Records (EHR) is a complex and time-consuming task that requires a great amount of specialised human resources. Therefore, several machine learning approaches are being proposed to assist in the assignment task. In this work we present an alternative system for automatically recommending ICD-10 codes to be assigned to EHRs. Methods: Our proposal is based on characterising ICD-10 codes by a set of keyphrases that represent them. These keyphrases do not only include those that have literally appeared in some EHR with the considered ICD-10 codes assigned, but also others that have been obtained by a statistical process able to capture expressions that have led the annotators to assign the code. Results: The result is an information model that allows to efficiently recommend codes to a new EHR based on their textual content. We explore an approach that proves to be competitive with other state-of-the-art approaches and can be combined with them to optimise results. Conclusions: In addition to its effectiveness, the recommendations of this method are easily interpretable since the phrases in an EHR leading to recommend an ICD-10 code are known. Moreover, the keyphrases associated with each ICD-10 code can be a valuable additional source of information for other approaches, such as machine learning techniques.
  • Cargando...
    Miniatura
    Publicación
    Analyzing information retrieval methods to recover broken web links
    (2011-06-19) Martínez Romo, Juan; Araujo Serna, M. Lourdes
    In this work we compare different techniques to automatically find candidate web pages to substitute broken links. We extract information from the anchor text, the content of the page containing the link, and the cache page in some digital library.The selected information is processed and submitted to a search engine. We have compared different information retrievalmethods for both, the selection of terms used to construct the queries submitted to the search engine, and the ranking of the candidate pages that it provides, in order to help the user to find the best replacement. In particular, we have used term frequencies, and a language model approach for the selection of terms; and cooccurrence measures and a language model approach for ranking the final results. To test the different methods, we have also defined a methodology which does not require the user judgments, what increases the objectivity of the results.
  • Cargando...
    Miniatura
    Publicación
    Anonimización de Informes Médicos
    (Universidad Nacional de Educación a Distancia (España). Escuela Técnica Superior de Ingeniería Informática. Departamento de Inteligencia Artificial, 2021-09-15) Gaitán Rivas, José Antonio; Araujo Serna, M. Lourdes; Martínez, Raquel
    Con el objetivo de mejorar la salud y seguridad de los pacientes cada vez existe un mayor interés en gestionar eficientemente el contenido de los historiales clínicos electrónicos. Dichos informes médicos están escritos principalmente en lenguaje natural, por lo que contienen información no estructurada generalizadamente, haciéndose imprescindibles tecnologías de Minería de Textos y de PLN (Procesamiento de Lenguaje Natural) para su explotación. Con técnicas apropiadas de dichas tecnologías se ayuda en la toma de decisiones clínicas o se facilita la reutilización de medicamentos, entre muchas otras ventajas. Sin embargo, los registros clínicos con información de salud protegida (PHI o Protected Health Information) no pueden ser compartidos directamente debido a restricciones relacionadas con la protección de datos sobre dicha información privada de los pacientes. Es necesaria pues, una anonimización o disociación de dichos registros antes de poder ser usados externamente, debiéndose eliminar total o parcialmente toda información que permita identificar al paciente. La base del presente trabajo ha sido la tarea de evaluación MEDDOCAN (Medical Document Anonymization), a la que puede accederse en https://temu.bsc.es/meddocan , que forma parte de la iniciativa IberLEF 2019, y con la que se organizó un desafío para la comunidad hispano-hablante, con el objetivo de diseñar sistemas eficientes de anonimización de documentos médicos escritos en español. La tarea de MEDDOCAN se estructura en dos subtareas:  Identificación y clasificación de entidades (nombres de paciente, teléfonos, etc.)  Detección de texto sensible La evaluación oficial de la tarea, por tanto, engloba los resultados de ambas subtareas. El corpus está formado por 1.000 estudios de casos clínicos, y cada uno de ellos cuenta, de forma anexa, con expresiones PHI realizadas por profesionales. 4 Del total de 1.000 casos, se reservó el 50% (500 casos) para entrenamiento de la tarea, un 25% (250 casos) para labores de desarrollo, y el otro 25% (250 casos) para pruebas. En el desafío participaron 18 equipos, de un total de 8 nacionalidades distintas, y el mejor resultado, basado en la métrica F-score, fue de 0.9360 para la subtarea 1 (“Identificación y clasificación de entidades”) y de 0.9611 para la subtarea 2 (“Detección de texto sensible”). A lo largo del presente trabajo estudiaremos y compararemos los datos proporcionados por los organizadores de la tarea, y propondremos un sistema que implementa una solución simple mediante técnicas de Aprendizaje Automático y Minería de Textos. Finalmente analizaremos los resultados obtenidos con dicho sistema y serán comparados con los de los participantes en la tarea, exponiendo las ventajas e inconvenientes para la arquitectura escogida, respecto a las presentadas. En dichas conclusiones incorporaremos un listado de posibles mejoras o implementaciones futuras recomendadas para mejorar el rendimiento.
  • Cargando...
    Miniatura
    Publicación
    Automatic detection of trends in time-stamped sequences : an evolutionary approach
    (Springer-Verlag, 2009-01-14) Merelo, Juan Julián; Araujo Serna, M. Lourdes
    This paper presents an evolutionary algorithm for modeling the arrival dates in time-stamped data sequences such as newscasts, e-mails, IRC conversations, scientific journal articles or weblog postings. These models are applied to the detection of buzz (i.e. terms that occur with a higher-than-normal frequency) in them, which has attracted a lot of interest in the online world with the increasing number of periodic content producers. That is why in this paper we have used this kind of online sequences to test our system, though it is also valid for other types of event sequences. The algorithm assigns frequencies (number of events per time unit) to time intervals so that it produces an optimal fit to the data. The optimization procedure is a trade off between accurately fitting the data and avoiding too many frequency changes, thus overcoming the noise inherent in these sequences. This process has been traditionally performed using dynamic programming algorithms, which are limited by memory and efficiency requirements. This limitation can be a problem when dealing with long sequences, and suggests the application of alternative search methods with some degree of uncertainty to achieve tractability, such as the evolutionary algorithm proposed in this paper. This algorithm is able to reach the same solution quality as those classical dynamic programming algorithms, but in a shorter time. We also test different cost functions and propose a new one that yields better fits than the one originally proposed by Kleinberg on real-world data. Finally, several distributions of states for the finite state automata are tested, with the result that an uniform distribution produces much better fits than the geometric distribution also proposed by Kleinberg. We also present a variant of the evolutionary algorithm, which achieves a fast fit of a sequence extended with new data, by taking advantage of the fit obtained for the original subsequence.
  • Cargando...
    Miniatura
    Publicación
    Automatic Recommendation of Forum Threads and Reinforcement Activities in a Data Structure and Programming Course
    (MDPI, 2023-09-21) Plaza Morales, Laura; Araujo Serna, M. Lourdes; López Ostenero, Fernando; Martínez Romo, Juan
    Online learning is quickly becoming a popular choice instead of traditional education. One of its key advantages lies in the flexibility it offers, allowing individuals to tailor their learning experiences to their unique schedules and commitments. Moreover, online learning enhances accessibility to education, breaking down geographical and economical boundaries. In this study, we propose the use of advanced natural language processing techniques to design and implement a recommender that supports e-learning students by tailoring materials and reinforcement activities to students’ needs. When a student posts a query in the course forum, our recommender system provides links to other discussion threads where related questions have been raised and additional activities to reinforce the study of topics that have been challenging. We have developed a content-based recommender that utilizes an algorithm capable of extracting key phrases, terms, and embeddings that describe the concepts in the student query and those present in other conversations and reinforcement activities with high precision. The recommender considers the similarity of the concepts extracted from the query and those covered in the course discussion forum and the exercise database to recommend the most relevant content for the student. Our results indicate that we can recommend both posts and activities with high precision (above 80%) using key phrases to represent the textual content. The primary contributions of this research are three. Firstly, it centers on a remarkably specialized and novel domain; secondly, it introduces an effective recommendation approach exclusively guided by the student’s query. Thirdly, the recommendations not only provide answers to immediate questions, but also encourage further learning through the recommendation of supplementary activities.
  • Cargando...
    Miniatura
    Publicación
    Automatización de codificación y resumen de informes de exploraciones radiológicas de próstata
    (Universidad Nacional de Educación a Distancia (España). Escuela Técnica Superior de Ingeniería Informática. Departamento de Lenguajes y Sistemas Informáticos, 2023) Chizhikova, Mariia; Araujo Serna, M. Lourdes; Martínez Romo, Juan
    La radiología constituye uno de los pilares fundamentales de la medicina hoy en día al apoyar tanto el diagnóstico, como el tratamiento. El informe radiológico, a su vez, es un componente esencial del estudio en el que se fundamenta la interpretación de los hallazgos por parte del médico remitente. La introducción de registros electrónicos de salud y la digitalización de la información acumulada por el sistema sanitario han creado una necesidad de estructuración de la información contenida en formato de texto libre en los informes clínicos para habilitar su aprovechamiento tanto en la práctica clínica como en la investigación médica. Con el fin de contribuir tanto a la calidad de la comunicación entre los radiólogos y los médicos remitentes, como a la estructuración de la información contenida en el texto de los informes radiológicos, en el presente trabajo se abordan las tareas la automatización de la codificación clínica y la generación de conclusiones de informes de exploraciones radiológicas de próstata escritos en español. La tarea de codificación se centra en la clasificación PI-RADS v.2.1 que implementa una escala de 5 puntos basada en la probabilidad de que una combinación de hallazgos esté en correlación con la presencia de un cáncer clínicamente significativo. Con el fin de asignar estos códigos se realizaron 3 experimentos, de los cuales el mejor resultado (0,9372 de macro F1) ha mostrado un sistema basado en el ajuste fino de un modelo pre-entrenado sobre una combinación de textos médicos y clínicos. Para la tarea de generación automática de conclusiones de informes radiológicos se realizaron experimentos con un modelo de arquitectura codificadordecodificador, resultando su ajuste fino la opción preferente que proporcionó resultados prometedores (0,7545 de ROUGE-L).
  • Cargando...
    Miniatura
    Publicación
    Biomedical Information Extraction: Exploring new entities and relationships
    (Universidad Nacional de Educación a Distancia (España). Escuela Internacional de Doctorado. Programa de Doctorado en Sistemas Inteligentes, 2021) Fabregat Marcos, Hermenegildo; Araujo Serna, M. Lourdes ; Martínez Romo, Juan
    En la actualidad, los diferentes procesos de digitalización y difusión de información en los que está inmersa la sociedad han dado lugar a un incremento de la información disponible, sobre todo en el dominio biomédico. Debido al esfuerzo requerido para procesar tales cantidades de información, una línea de investigación notablemente activa en la última década es la exploración de técnicas de procesamiento de lenguaje natural y aprendizaje automático para la extracción de información de documentos no estructurados. Estas técnicas están suponiendo grandes hitos en el dominio biomédico, en especial en algunas tareas de extracción de información como el reconocimiento de entidades nombradas y la extracción de relaciones. En esta tesis presentamos una investigación centrada en el análisis automático de documentos de este dominio, profundizando en el procesamiento de documentos acerca de discapacidades y limitaciones funcionales. Este tipo de patologías tienen un alto impacto social ya que afectan al día a día de una gran parte de la población, conllevando en algunos casos serios impedimentos sobre la autonomía de las personas afectadas. Además, muchas enfermedades raras tienen asociadas diversas discapacidades, por lo que frecuentemente se usan para caracterizarlas y pueden ser rasgos de gran utilidad en el diagnóstico de estas enfermedades, para las que por su naturaleza se suele contar con poca información. El objetivo principal de esta tesis es la exploración de documentos del dominio biomédico para el reconocimiento de menciones a discapacidades y la identificación de sus relaciones con enfermedades raras. La detección de estas entidades presenta dificultades específicas, que van desde la falta de concreciones formales para la definición de discapacidad, hasta la necesidad de considerar el gran número de formas diferentes de expresar una misma discapacidad. Con el fin de abordar este objetivo, resultó necesaria la recolección y anotación de diferentes colecciones de datos, incluyendo documentos en diferentes idiomas. Tras la generación de las diferentes colecciones de datos, proseguimos con la exploración de sistemas de reconocimiento de entidades para la identificación de menciones a enfermedades raras y discapacidades, y con el estudio de sistemas para la extracción de relaciones entre discapacidades y enfermedades raras. Profundizando en el análisis de este tipo de entidades, extendimos la exploración de las dificultades para la generación de sistemas automáticos orientados al reconocimiento de discapacidades mediante la proposición de una tarea de evaluación. Las diferentes lecciones aprendidas durante la tarea de evaluación propuesta nos sirvieron para el desarrollo y refinamiento de un sistema automático basado en deep learning para el reconocimiento de discapacidades. El sistema desarrollado se basó en el uso mixto de diferentes tipos de redes recurrentes y planteó mejoras sobre sistemas actuales del estado del arte. Al mismo tiempo, este sistema nos sirvió de base para la exploración de sistemas de reconocimiento de entidades y extracción de relaciones de forma conjunta. El estudio de la sinergia existente entre ambas tareas supuso la obtención de mejoras significativas. Por ultimo y con el objetivo de explorar los efectos de la negación sobre sistemas de extracción de información, analizamos el rendimiento de enfoques para el procesamiento automático de la negación en documentos en español e inglés. Durante este análisis comprobamos el rendimiento de diferentes propuestas basadas en deep learning para la detección de disparadores de negación y sus alcances, obteniendo mejoras sobre propuestas del estado del arte para el procesamiento de documentos en español. Los resultados obtenidos durante el procesamiento de la negación supusieron además interesantes mejoras en la extracción de relaciones y en el reconocimiento de entidades.
  • Cargando...
    Miniatura
    Publicación
    Building a framework for fake news detection in the health domain
    (San Francisco CA: Public Library of Science, 2024-07-08) Martinez Rico, Juan R.; Araujo Serna, M. Lourdes; Martínez Romo, Juan; Bongelli, Ramona
    Disinformation in the medical field is a growing problem that carries a significant risk. Therefore, it is crucial to detect and combat it effectively. In this article, we provide three elements to aid in this fight: 1) a new framework that collects health-related articles from verification entities and facilitates their check-worthiness and fact-checking annotation at the sentence level; 2) a corpus generated using this framework, composed of 10335 sentences annotated in these two concepts and grouped into 327 articles, which we call KEANE (faKe nEws At seNtence lEvel); and 3) a new model for verifying fake news that combines specific identifiers of the medical domain with triplets subject-predicate-object, using Transformers and feedforward neural networks at the sentence level. This model predicts the fact-checking of sentences and evaluates the veracity of the entire article. After training this model on our corpus, we achieved remarkable results in the binary Classification of sentences (check-worthiness F1: 0.749, fact-checking F1: 0.698) and in the final classification of complete articles (F1: 0.703). We also tested its performance against another public dataset and found that it performed better than most systems evaluated on that dataset. Moreover, the corpus we provide differs from other existing corpora in its duality of sentence-article annotation, which can provide an additional level of justification of the prediction of truth or untruth made by the model.
  • Cargando...
    Miniatura
    Publicación
    Can deep learning techniques improve classification performance of vandalism detection in Wikipedia?
    (Elsevier, 2019) Martinez-Rico, Juan R.; Martínez Romo, Juan; Araujo Serna, M. Lourdes
    Wikipedia is a free encyclopedia created as an international collaborative project. One of its peculiarities is that any user can edit its contents almost without restrictions, what has given rise to a phenomenon known as vandalism. Vandalism is any attempt that seeks to damage the integrity of the encyclopedia deliberately. To address this problem, in recent years several automatic detection systems and associated features have been developed. This work implements one of these systems, which uses three sets of new features based on different techniques. Specifically we study the applicability of a leading technology as deep learning to the problem of vandalism detection. The first set is obtained by expanding a list of vandal terms taking advantage of the existing semantic-similarity relations in word embeddings and deep neural networks. Deep learning techniques are applied to the second set of features, specifically Stacked Denoising Autoencoders (SDA), in order to reduce the dimensionality of a bag of words model obtained from a set of edits taken from Wikipedia. The last set uses graph-based ranking algorithms to generate a list of vandal terms from a vandalism corpus extracted from Wikipedia. These three sets of new features are evaluated separately as well as together to study their complementarity, improving the results in the state of the art. The system evaluation has been carried out on a corpus extracted from Wikipedia (WP_Vandal) as well as on another called PAN-WVC-2010 that was used in a vandalism detection competition held at CLEF conference.
  • Cargando...
    Miniatura
    Publicación
    Deep-Learning Approach to Educational Text Mining and Application to the Analysis of Topics’ Difficulty
    (Institute of Electrical and Electronics Engineers, 2020-12-02) Araujo Serna, M. Lourdes; López Ostenero, Fernando; Martínez Romo, Juan; Plaza Morales, Laura
    Learning analytics has emerged as a promising tool for optimizing the learning experience and results, especially in online educational environments. An important challenge in this area is identifying the most difficult topics for students in a subject, which is of great use to improve the quality of teaching by devoting more effort to those topics of greater difficulty, assigning them more time, resources and materials. We have approached the problem by means of natural language processing techniques. In particular, we propose a solution based on a deep learning model that automatically extracts the main topics that are covered in educational documents. This model is next applied to the problem of identifying the most difficult topics for students in a subject related to the study of algorithms and data structures in a Computer Science degree. Our results show that our topic identification model presents very high accuracy (around 90 percent) and may be efficiently used in learning analytics applications, such as the identification and understanding of what makes the learning of a subject difficult. An exhaustive analysis of the case study has also revealed that there are indeed topics that are consistently more difficult for most students, and also that the perception of difficulty in students and teachers does not always coincide with the actual difficulty indicated by the data, preventing to pay adequate attention to the most challenging topics.
  • Cargando...
    Miniatura
    Publicación
    Dependency parsing as sequence labeling for low-resource languages
    (Universidad Nacional de Educación a Distancia (España). Escuela Técnica Superior de Ingeniería Informática. Departamento de Lenguajes y Sistemas Informáticos, 2021-10-01) Muñoz Ortiz, Alberto; Araujo Serna, M. Lourdes ; Vilares Calvo, David
    El procesamiento de lenguaje natural (PLN) ha experimentado claros avances en los últimos años. Sin embargo, la mayoría de mejoras y estudios se han centrado en un selecto grupo de idiomas, siendo el ingles su principal representante, ignorando como funcionan estos métodos en idiomas menos privilegiados, que normalmente reciben el nombre de idiomas con pocos recursos. Este trabajo trata sobre idiomas con pocos recursos, y se centra en una tarea central de PLN conocida como análisis sintáctico de dependencias; ésta consiste en analizar automáticamente la estructura sintáctica de dependencias de una oración, conectando sus palabras mediante relaciones asimétricas binarias entre una palabra gobernante y una palabra subordinada sintácticamente. En concreto, nuestra contribución se encuentra en la intersección entre la velocidad de análisis e idiomas con pocos recursos. En este contexto, recientemente se ha propuesto realizar el análisis de dependencias como una tarea de etiquetado de secuencias. Este enfoque computa un árbol linealizado de n etiquetas dada una frase de longitud n, y otorga una buena relación entre velocidad y precisión. Además, ofrece una forma sencilla de incorporar información sintáctica como una word embedding o característica de entrada. En primer lugar, comparamos el rendimiento de cinco linealizaciones para análisis de dependencias como etiquetado de secuencias en escenarios con pocos recursos. Estas linealizaciones pertenecen a diferentes familias y proponen formular el problema como: (i) seleccionar el gobernante sintáctico para cada palabra, (ii) encontrar una representación de los arcos entre tokens utilizando paréntesis equilibrados y (iii) asociar a cada token subsecuencias de transiciones de un analizador basado en transiciones. Sin embargo, aún existe poco conocimiento sobre cómo se comportan estas linealizaciones en cofiguraciones con pocos recursos. En este trabajo, primero estudiamos su nivel de eficiencia, simulando configuraciones con datos restringidos partiendo de un conjunto diverso de treebanks con muchos recursos. Los resultados muestran que las codificaciones de selección del gobernante sintáctico son más eficientes y obtienen mejores resultados en condiciones ideales (gold), pero que esta ventaja se desvanece en favor de las estrategias de paréntesis equilibrados cuando la configuración utilizada es más similar a una cofiguración realista, como la esperada en idiomas con realmente pocos recursos. En segundo lugar, proponemos un método basado en morfología combinado con aprendizaje translingüe para intentar mejorar el rendimiento del análisis de dependencias en idiomas con pocos recursos. Para ello, primero entrenamos un sistema de exón morfológica para idiomas objetivo con pocos recursos, y después lo aplicamos a treebanks con muchos recursos de idiomas similares para crear un treebank flexionado translingüe (o x-inected treebank) que se asemeje al idioma con pocos recursos objetivo. A continuación, utilizamos los treebanks flexionados para entrenar los analizadores sintácticos de etiquetado de secuencias en dos escenarios: (i) un escenario zero-shot (entrenando un modelo en el x-inected treebank y ejecutándolo sobre el idioma objetivo), y (ii) un escenario few-shot (entrenando un modelo utilizando un grupo compuesto por x-inected treebank junto con el treebank con pocos recursos y ejecutándolos sobre el idioma objetivo). Nuestro objetivo es comprobar la utilidad del método propuesto en situaciones con distinta disponibilidad de datos anotados. Los resultados muestran que el método propuesto puede ser de ayuda en algunas situaciones, pero se necesita estudiar más en profundidad para entender como los distintos factores pueden afectar a los resultados y comprobar si estas tendencias se mantienen usando otros paradigmas, como analizadores basados en transiciones y basados en grafos.
  • Cargando...
    Miniatura
    Publicación
    Detección temprana de riesgos de salud a partir de minería de textos en Redes Sociales
    (Universidad Nacional de Educación a Distancia (España). Escuela Técnica Superior de Ingeniería Informática. Departamento de Inteligencia Artificial, 2022-06-27) Moñux Salvador, Samuel; Araujo Serna, M. Lourdes ; Martínez Unanue, Raquel
    La anorexia y los desordenes de la alimentación relacionados son un problema de salud pública con unos altos costes en términos de sufrimiento y de gasto sanitario. Esta condición es especialmente prevalente entre las mujeres jóvenes y adolescentes de países desarrollados. Este sector demográfico tiene una fuerte presencia en redes sociales, lo que unido al hecho de ser diagnosticable por rasgos conductuales, hace que la tarea de su detección sea una buena candidata para la aplicación de herramientas de rastreo en redes sociales que estén basadas en técnicas de Aprendizaje Automático. Esta es la base bajo la que se desarrollaron las ediciones de 2018 y 2019 del laboratorio CLEF eRisk, en el que una serie de equipos de distintas organizaciones de diferentes nacionalidades compitieron en el desarrollo del algoritmo más preciso y rápido (en términos de su capacidad de detección) sobre un conjunto de datos proporcionado por los organizadores. Los objetivos de este proyecto están relacionados con estas competiciones y con la tarea sobre la que se desarrollaron y comprenden: La selección de los enfoques más prometedores y la elaboración de un estudio del “estado del arte” en aquel momento. El diseño e implementación de un sistema similar a los reseñados, inspirado en las técnicas y metodologías empleadas por los mejores equipos pero que incorpore también características novedosas. La evaluación de la solución desarrollada, en comparación con los algoritmos mejor puntuados pero también en términos de su “interpretabilidad”. Este objetivo, sin ser uno de los enunciados explícitamente en la tarea del laboratorio, resulta crucial para cualquier herramienta que aspire a asistir en la toma de decisiones a los profesionales sanitarios de cualquier campo. Estos profesionales necesitan entender la lógica sobre la que se sustenta la predicción para confiar en ella, por lo que debe ser tenida en cuenta desde el principio. El sistema desarrollado demuestra ser competitivo con las mejores soluciones, situándose “virtualmente” entre la décima posición (de 51) en la métrica considerada más útil para evaluar el rendimiento del sistema (F1 ponderada por la rapidez de detección). Además, permite justificar las decisiones identificando los comentarios de los usuarios que más peso han tenido en la predicción, así cómo “describir” la temática de esos comentarios mediante palabras clave (que pueden estar o no en el texto pero que semánticamente están relacionadas con el contenido del mismo).
  • Cargando...
    Miniatura
    Publicación
    Detecting malicious tweets in trending topics using a statistical analysis of language
    (Elsevier, 2013-06-01) Martínez Romo, Juan; Araujo Serna, M. Lourdes
    Twitter spam detection is a recent area of research in which most previous works had focused on the identification of malicious user accounts and honeypot-based approaches. However, in this paper we present a methodology based on two new aspects: the detection of spam tweets in isolation and without previous information of the user; and the application of a statistical analysis of language to detect spam in trending topics. Trending topics capture the emerging Internet trends and topics of discussion that are in everybody’s lips. This growing microblogging phenomenon therefore allows spammers to disseminate malicious tweets quickly and massively. In this paper we present the first work that tries to detect spam tweets in real time using language as the primary tool. We first collected and labeled a large dataset with 34 K trending topics and 20 million tweets. Then, we have proposed a reduced set of features hardly manipulated by spammers. In addition, we have developed a machine learning system with some orthogonal features that can be combined with other sets of features with the aim of analyzing emergent characteristics of spam in social networks. We have also conducted an extensive evaluation process that has allowed us to show how our system is able to obtain an F-measure at the same level as the best state-ofthe- art systems based on the detection of spam accounts. Thus, our system can be applied to Twitter spam detection in trending topics in real time due mainly to the analysis of tweets instead of user accounts.
  • Cargando...
    Miniatura
    Publicación
    Detecting Signs of Non-suicidal Self-Injury in Psychiatric Medical Reports Using Language Analysis
    (Sociedad Española para el Procesamiento del Lenguaje Natural, 2022) Reneses, Blanca; Sevilla-Llewellyn-Jones, Julia; Martínez-Capella, Ignacio; Seara-Aguilar, Germán; Martínez Romo, Juan; Araujo Serna, M. Lourdes
    La autolesión no suicida, a menudo denominada autolesión, es el acto de dañarse deliberadamente el propio cuerpo, como cortarse o quemarse. Normalmente, no pretende ser un intento de suicidio. En este trabajo se presenta un sistema de detección de indicios de autolesiones no suicidas, basado en el análisis del lenguaje, sobre un conjunto anotado de informes médicos obtenidos del servicio de psiquiatría de un Hospital público madrileño. Tanto la explicabilidad como la precisión a la hora de predecir los casos positivos, son los dos principales objetivos de este trabajo. Para lograr este fin se han desarrollado dos sistemas supervisados de diferente naturaleza. Por un lado se ha llevado a cabo un proceso de extracción de diferentes rasgos centrados en el propio mundo de las autolesiones mediante técnicas de procesamiento del lenguaje natural para alimentar posteriormente un clasificador tradicional. Por otro lado, se ha implementado un sistema de aprendizaje profundo basado en varias capas de redes neuronales convolucionales, debido a su gran desempeño en tareas de clasificación de textos. El resultado es el funcionamiento de dos sistemas supervisados con un gran rendimiento, en donde destacamos el sistema basado en un clasificador tradicional debido a su mejor predicción de clases positivas y la mayor facilidad de cara a explicar sus resultados a los profesionales sanitarios.
  • Cargando...
    Miniatura
    Publicación
    Discovering HIV related information by means of association rules and machine learning
    (Nature Research, 2022-10-22) Araujo Serna, M. Lourdes; Martínez Romo, Juan; Bisbal, Otilia; Sanchez de Madariaga, Ricardo; The Cohort of the National AIDS Network (CoRIS); https://orcid.org/0000-0003-3746-3378
    Acquired immunodeficiency syndrome (AIDS) is still one of the main health problems worldwide. It is therefore essential to keep making progress in improving the prognosis and quality of life of affected patients. One way to advance along this pathway is to uncover connections between other disorders associated with HIV/AIDS-so that they can be anticipated and possibly mitigated. We propose to achieve this by using Association Rules (ARs). They allow us to represent the dependencies between a number of diseases and other specific diseases. However, classical techniques systematically generate every AR meeting some minimal conditions on data frequency, hence generating a vast amount of uninteresting ARs, which need to be filtered out. The lack of manually annotated ARs has favored unsupervised filtering, even though they produce limited results. In this paper, we propose a semi-supervised system, able to identify relevant ARs among HIV-related diseases with a minimal amount of annotated training data. Our system has been able to extract a good number of relationships between HIV-related diseases that have been previously detected in the literature but are scattered and are often little known. Furthermore, a number of plausible new relationships have shown up which deserve further investigation by qualified medical experts.
  • Cargando...
    Miniatura
    Publicación
    Discovering related scientific literature beyond semantic similarity: a new co-citation approach
    (Springer, 2019-05-17) Rodríguez Prieto, Oscar; Araujo Serna, M. Lourdes; Martínez Romo, Juan
    We propose a new approach to recommend scientific literature, a domain in which the efficient organization and search of information is crucial. The proposed system relies on the hypothesis that two scientific articles are semantically related if they are co-cited more frequently than they would be by pure chance. This relationship can be quantified by the probability of co-citation, obtained from a null model that statistically defines what we consider pure chance. Looking for article pairs that minimize this probability, the system is able to recommend a ranking of articles in response to a given article. This system is included in the co-occurrence paradigm of the field. More specifically, it is based on co-cites so it can produce recommendations more focused on relatedness than on similarity. Evaluation has been performed on the ACL Anthology collection and on the DBLP dataset, and a new corpus has been compiled to evaluate the capacity of the proposal to find relationships beyond similarity. Results show that the system is able to provide, not only articles similar to the submitted one, but also articles presenting other kind of relations, thus providing diversity, i.e. connections to new topics.
  • Cargando...
    Miniatura
    Publicación
    Disentangling categorical relationships through a graph of co-occurrences
    (American Physical Society, 2011-10-19) Borge Holthoefer, Javier; Arenas, Alex; Capitán, José A.; Cuesta, José A.; Martínez Romo, Juan; Araujo Serna, M. Lourdes
    The mesoscopic structure of complex networks has proven a powerful level of description to understand the linchpins of the system represented by the network. Nevertheless, themapping of a series of relationships between elements, in terms of a graph, is sometimes not straightforward. Given that all the information we would extract using complex network tools depend on this initial graph, it is mandatory to preprocess the data to build it on in the most accurate manner. Here we propose a procedure to build a network, attending only to statistically significant relations between constituents. We use a paradigmatic example of word associations to show the development of our approach. Analyzing the modular structure of the obtained network we are able to disentangle categorical relations, disambiguating words with success that is comparable to the best algorithms designed to the same end.
  • Cargando...
    Miniatura
    Publicación
    Experimentación basada en deep learning para el reconocimiento del alcance y disparadores de la negación
    (Sociedad Española para el Procesamiento del Lenguaje Natural, 2019) Fabregat Marcos, Hermenegildo; Araujo Serna, M. Lourdes; Martínez Romo, Juan
    La detección automática de los distintos elementos de la negación es un frecuente tema de estudio debido a su alto impacto en diversas tareas de procesamiento de lenguaje natural. Este articulo presenta un sistema basado en deep learning y de arquitectura no dependiente del idioma para la detección automática tanto de disparadores como del alcance de la negación para inglés y español. El sistema presentado obtiene para ingles resultados comparables a los obtenidos en recientes trabajos por sistemas más complejos. Para español destacan los resultados obtenidos en la detección de claves de negación. Por último, los resultados para el reconocimiento del alcance de la negación, son similares a los obtenidos en inglés.
  • Cargando...
    Miniatura
    Publicación
    Extracción de Eventos y Expresiones Temporales en Textos Clínicos
    (Universidad Nacional de Educación a Distancia (España). Escuela Técnica Superior de Ingeniería Informática. Departamento de Lenguajes y Sistemas Informáticos, 2021-06-01) Vicente Cabero, Juan Manuel; Araujo Serna, M. Lourdes ; Martínez Romo, Juan
    En el ambito clnico, la identicacion de eventos como la sintomatologa de un paciente, las enfermedades que pueda padecer o los tratamientos que se le han aplicado, es una necesidad comun entre los profesionales sanitarios e investigadores. Mas alla de la deteccion de los eventos, es necesario poder situarlos en una lnea temporal, pudiendo saber con facilidad el historial clnico del paciente, la sintomatologa que presenta y el tiempo que ha pasado desde que se le administro la ultima dosis de un determinado farmaco. La extraccion automatica del historial del paciente dado un informe sobre su ingreso en el hospital es un problema englobado dentro de la lnea de investigacion de la Extraccion de Informacion, concretamente por la tarea de Extraccion de Relaciones Temporales. Su aplicacion al dominio clnico ha recibido atencion especialmente en la ultima decada en varias ediciones de congresos como i2b2 y Clinical TempEval, en las que se han presentado corpus y metodologas de evaluacion para incentivar el desarrollo de la investigaci on del campo. Esta tarea tiene como antecedente la Extraccion de Eventos y Expresiones Temporales, dado que son los elementos necesarios para extraer las relaciones. En el presente documento se describe la tarea de Extraccion de Eventos y Expresiones Temporales en Textos Clnicos, evaluando 5 arquitecturas que puedan abordar el problema partiendo de informes de alta de pacientes del corpus i2b2. Las arquitecturas toman como referencia las consideradas como estado del arte, tomando una de ellas como base y aplicando modicaciones de forma progresiva a n de conseguir igualar o mejorar los resultados, a la par que se reducen el procesado y la cantidad de datos necesaria para entrenar dichos sistemas. Estas modicaciones dan lugar al sistema BertSR, que supone un planteamiento nuevo apoyado en un modelo BERT pre-entrenado, y que consigue igualar, e incluso superar en algunas subtareas, los resultados de los mejores sistemas del corpus i2b2.
  • Cargando...
    Miniatura
    Publicación
    Generation of social network user profiles and their relationship with suicidal behaviour
    (Sociedad Española para el Procesamiento del Lenguaje Natural, 2024) Fernández Hernández, Jorge; Araujo Serna, M. Lourdes; Martínez Romo, Juan
    Actualmente el suicidio es una de las principales causas de muerte en el mundo, por lo que poder caracterizar a personas con esta tendencia puede ayudar a prevenir posibles intentos de suicidio. En este trabajo se ha recopilado un corpus, llamado SuicidAttempt en español compuesto por usuarios con o sin menciones explícitas de intentos de suicidio, usando la aplicación de mensajería Telegram. Para cada uno de los usuarios se han anotado distintos rasgos demográficos de manera semi-automática mediante el empleo de distintos sistemas, en unos casos supervisados y en otros no supervisados. Por último se han analizado estos rasgos recogidos, junto con otros lingüísticos extraídos de los mensajes de los usuarios, para intentar caracterizar distintos grupos en base a su relación con el comportamiento suicida. Los resultados sugieren que la detección de estos rasgos demográficos y psicolingüísticos permiten caracterizar determinados grupos de riesgo y conocer en profundidad los perfiles que realizan dichos actos.
  • «
  • 1 (current)
  • 2
  • »
Enlaces de interés

Aviso legal

Política de privacidad

Política de cookies

Reclamaciones, sugerencias y felicitaciones

Recursos adicionales

Biblioteca UNED

Depósito de datos de investigación

Portal de investigación UNED

InvestigaUNED

Contacto

Teléfono: 913988766 / 6633 / 7891 / 6172

Correo: repositoriobiblioteca@adm.uned.es