Persona:
Martínez Romo, Juan

Cargando...
Foto de perfil
Dirección de correo electrónico
ORCID
0000-0002-6905-7051
Fecha de nacimiento
Proyectos de investigación
Unidades organizativas
Puesto de trabajo
Apellidos
Martínez Romo
Nombre de pila
Juan
Nombre

Resultados de la búsqueda

Mostrando 1 - 10 de 19
  • Publicación
    Can deep learning techniques improve classification performance of vandalism detection in Wikipedia?
    (Elsevier, 2019) Martinez-Rico, Juan R.; Martínez Romo, Juan; Araujo Serna, M. Lourdes
    Wikipedia is a free encyclopedia created as an international collaborative project. One of its peculiarities is that any user can edit its contents almost without restrictions, what has given rise to a phenomenon known as vandalism. Vandalism is any attempt that seeks to damage the integrity of the encyclopedia deliberately. To address this problem, in recent years several automatic detection systems and associated features have been developed. This work implements one of these systems, which uses three sets of new features based on different techniques. Specifically we study the applicability of a leading technology as deep learning to the problem of vandalism detection. The first set is obtained by expanding a list of vandal terms taking advantage of the existing semantic-similarity relations in word embeddings and deep neural networks. Deep learning techniques are applied to the second set of features, specifically Stacked Denoising Autoencoders (SDA), in order to reduce the dimensionality of a bag of words model obtained from a set of edits taken from Wikipedia. The last set uses graph-based ranking algorithms to generate a list of vandal terms from a vandalism corpus extracted from Wikipedia. These three sets of new features are evaluated separately as well as together to study their complementarity, improving the results in the state of the art. The system evaluation has been carried out on a corpus extracted from Wikipedia (WP_Vandal) as well as on another called PAN-WVC-2010 that was used in a vandalism detection competition held at CLEF conference.
  • Publicación
    Detecting malicious tweets in trending topics using a statistical analysis of language
    (Elsevier, 2013-06-01) Martínez Romo, Juan; Araujo Serna, M. Lourdes
    Twitter spam detection is a recent area of research in which most previous works had focused on the identification of malicious user accounts and honeypot-based approaches. However, in this paper we present a methodology based on two new aspects: the detection of spam tweets in isolation and without previous information of the user; and the application of a statistical analysis of language to detect spam in trending topics. Trending topics capture the emerging Internet trends and topics of discussion that are in everybody’s lips. This growing microblogging phenomenon therefore allows spammers to disseminate malicious tweets quickly and massively. In this paper we present the first work that tries to detect spam tweets in real time using language as the primary tool. We first collected and labeled a large dataset with 34 K trending topics and 20 million tweets. Then, we have proposed a reduced set of features hardly manipulated by spammers. In addition, we have developed a machine learning system with some orthogonal features that can be combined with other sets of features with the aim of analyzing emergent characteristics of spam in social networks. We have also conducted an extensive evaluation process that has allowed us to show how our system is able to obtain an F-measure at the same level as the best state-ofthe- art systems based on the detection of spam accounts. Thus, our system can be applied to Twitter spam detection in trending topics in real time due mainly to the analysis of tweets instead of user accounts.
  • Publicación
    Detección de Indicios de Autolesiones No Suicidas en Informes Médicos de Psiquiatría Mediante el Análisis del Lenguaje
    (Sociedad Española para el Procesamiento del Lenguaje Natural, 2022) Reneses, Blanca; Sevilla-Llewellyn-Jones, Julia; Martínez-Capella, Ignacio; Seara-Aguilar, Germán; Martínez Romo, Juan; Araujo Serna, M. Lourdes
    La autolesión no suicida, a menudo denominada autolesión, es el acto de dañarse deliberadamente el propio cuerpo, como cortarse o quemarse. Normalmente, no pretende ser un intento de suicidio. En este trabajo se presenta un sistema de detección de indicios de autolesiones no suicidas, basado en el análisis del lenguaje, sobre un conjunto anotado de informes médicos obtenidos del servicio de psiquiatría de un Hospital público madrileño. Tanto la explicabilidad como la precisión a la hora de predecir los casos positivos, son los dos principales objetivos de este trabajo. Para lograr este fin se han desarrollado dos sistemas supervisados de diferente naturaleza. Por un lado se ha llevado a cabo un proceso de extracción de diferentes rasgos centrados en el propio mundo de las autolesiones mediante técnicas de procesamiento del lenguaje natural para alimentar posteriormente un clasificador tradicional. Por otro lado, se ha implementado un sistema de aprendizaje profundo basado en varias capas de redes neuronales convolucionales, debido a su gran desempeño en tareas de clasificación de textos. El resultado es el funcionamiento de dos sistemas supervisados con un gran rendimiento, en donde destacamos el sistema basado en un clasificador tradicional debido a su mejor predicción de clases positivas y la mayor facilidad de cara a explicar sus resultados a los profesionales sanitarios.
  • Publicación
    Can deep learning techniques improve classification performance of vandalism detection in Wikipedia?
    (Elsevier, 2019) Martinez-Rico, Juan R.; Martínez Romo, Juan; Araujo Serna, M. Lourdes
    Wikipedia is a free encyclopedia created as an international collaborative project. One of its peculiarities is that any user can edit its contents almost without restrictions, what has given rise to a phenomenon known as vandalism. Vandalism is any attempt that seeks to damage the integrity of the encyclopedia deliberately. To address this problem, in recent years several automatic detection systems and associated features have been developed. This work implements one of these systems, which uses three sets of new features based on different techniques. Specifically we study the applicability of a leading technology as deep learning to the problem of vandalism detection. The first set is obtained by expanding a list of vandal terms taking advantage of the existing semantic-similarity relations in word embeddings and deep neural networks. Deep learning techniques are applied to the second set of features, specifically Stacked Denoising Autoencoders (SDA), in order to reduce the dimensionality of a bag of words model obtained from a set of edits taken from Wikipedia. The last set uses graph-based ranking algorithms to generate a list of vandal terms from a vandalism corpus extracted from Wikipedia. These three sets of new features are evaluated separately as well as together to study their complementarity, improving the results in the state of the art. The system evaluation has been carried out on a corpus extracted from Wikipedia (WP_Vandal) as well as on another called PAN-WVC-2010 that was used in a vandalism detection competition held at CLEF conference.
  • Publicación
    A keyphrase-based approach for interpretable ICD-10 code classification of Spanish medical reports
    (Elsevier, 2021) Fabregat Marcos, Hermenegildo; Duque Fernández, Andrés; Araujo Serna, M. Lourdes; Martínez Romo, Juan
    Background and objectives: The 10th version of International Classification of Diseases (ICD-10) codification system has been widely adopted by the health systems of many countries, including Spain. However, manual code assignment of Electronic Health Records (EHR) is a complex and time-consuming task that requires a great amount of specialised human resources. Therefore, several machine learning approaches are being proposed to assist in the assignment task. In this work we present an alternative system for automatically recommending ICD-10 codes to be assigned to EHRs. Methods: Our proposal is based on characterising ICD-10 codes by a set of keyphrases that represent them. These keyphrases do not only include those that have literally appeared in some EHR with the considered ICD-10 codes assigned, but also others that have been obtained by a statistical process able to capture expressions that have led the annotators to assign the code. Results: The result is an information model that allows to efficiently recommend codes to a new EHR based on their textual content. We explore an approach that proves to be competitive with other state-of-the-art approaches and can be combined with them to optimise results. Conclusions: In addition to its effectiveness, the recommendations of this method are easily interpretable since the phrases in an EHR leading to recommend an ICD-10 code are known. Moreover, the keyphrases associated with each ICD-10 code can be a valuable additional source of information for other approaches, such as machine learning techniques.
  • Publicación
    Generation of social network user profiles and their relationship with suicidal behaviour
    (Sociedad Española para el Procesamiento del Lenguaje Natural, 2024) Fernández Hernández, Jorge; Araujo Serna, M. Lourdes; Martínez Romo, Juan
    Actualmente el suicidio es una de las principales causas de muerte en el mundo, por lo que poder caracterizar a personas con esta tendencia puede ayudar a prevenir posibles intentos de suicidio. En este trabajo se ha recopilado un corpus, llamado SuicidAttempt en español compuesto por usuarios con o sin menciones explícitas de intentos de suicidio, usando la aplicación de mensajería Telegram. Para cada uno de los usuarios se han anotado distintos rasgos demográficos de manera semi-automática mediante el empleo de distintos sistemas, en unos casos supervisados y en otros no supervisados. Por último se han analizado estos rasgos recogidos, junto con otros lingüísticos extraídos de los mensajes de los usuarios, para intentar caracterizar distintos grupos en base a su relación con el comportamiento suicida. Los resultados sugieren que la detección de estos rasgos demográficos y psicolingüísticos permiten caracterizar determinados grupos de riesgo y conocer en profundidad los perfiles que realizan dichos actos.
  • Publicación
    Técnicas de recuperación de información para la resolución de problemas en la Web
    (Universidad Nacional de Educación a Distancia (España). Escuela Técnica Superior de Ingeniería Informática. Departamento de Lenguajes y Sistemas Informáticos, 2010-07-08) Martínez Romo, Juan
    En esta tesis, se abordan dos de los problemas más importantes que afectan a la Web en la actualidad. El crecimiento vertiginoso de esta red mundial, ha propiciado la conexión en esta tesis de uno de sus principales problemas desde el origen en 1989, los enlaces rotos, con una reciente preocupación de los motores de búsqueda, el web spam. El vínculo entre el problema de los enlaces rotos en las páginas web y el spam de buscadores, se ha establecido mediante el uso común de un conjunto de técnicas de recuperación de información, en forma de sistema de recuperación de información web. El inconveniente que genera la desaparición de una página web, ha sido afrontado mediante el diseño de un Sistema de Recuperación de Enlaces Rotos (SRER). Este sistema analiza la información disponible acerca de una página desaparecida, y recomienda al usuario un conjunto de documentos candidatos para reemplazar el enlace obsoleto. El SRER propuesto en esta tesis, a diferencia del resto de sistemas con objetivos similares, no necesita del almacenamiento previo de ningún tipo de información acerca de la página desaparecida, para poder realizar una recomendación. El diseño de este sistema se compone de cuatro etapas, en las que se aplican diferentes técnicas de recuperación de información y procesamiento del lenguaje natural, para obtener el mejor rendimiento. La primera etapa consiste en un proceso de selección de información, en el cual se analiza en primer lugar, el texto del ancla del hiperenlace que ha dejado de funcionar. Los términos que componen el ancla son una pieza fundamental en el buen funcionamiento del sistema, y de esta forma se realiza un reconocimiento de entidades nombradas, con el objetivo de determinar aquellos términos con un valor descriptivo superior. En segundo lugar, se extrae información del contexto del hiperenlace para conseguir un mayor grado de precisión. Cuando una página web desaparece, durante un periodo de tiempo variable, es posible encontrar datos acerca de dicha página en la infraestructura web. Teniendo en cuenta la presencia de esta información, en tercer lugar se propone el uso de varios recursos disponibles en la Web, con el objetivo de seguir el rastro que ha dejado la página desaparecida. Entre estos recursos se encuentran aplicaciones proporcionadas por los principales motores de búsqueda, librerías digitales, servicios web y redes sociales. La segunda etapa se centra en las fuentes de información obtenidas a partir del contexto del enlace y de los recursos online disponibles. En algunos casos, el tamaño de dichas fuentes es demasiado grande como para discriminar la información relevante de la que no lo es. Por este motivo se lleva a cabo un proceso de extracción de terminología a fin de sintetizar la información. Con el objetivo de optimizar la extracción de los términos más relevantes en cada caso, se han analizado diferentes técnicas de recuperación de información. En la tercera etapa, el SRER analiza la información obtenida y establece un conjunto de consultas, que posteriormente serán ejecutadas en un motor de búsqueda. En esta fase se parte de los datos obtenidos del texto del ancla y a continuación se realiza un proceso de expansión de consultas. Por cada una de las consultas, el sistema recupera los primeros resultados devueltos por el buscador. Una vez finalizada la etapa de expansión de consultas y recuperados las páginas candidatas a reemplazar al enlace roto, se lleva a cabo una ordenación por relevancia, para mostrar al usuario un conjunto de resultados en orden decreciente. Para establecer el orden de aparición, se han analizado algunas funciones de ranking. Estas funciones utilizan la información disponible en la primera etapa para otorgar un valor de relevancia a cada documento. Finalmente, el sistema presenta al usuario una lista de resultados ordenados según su relevancia. Las cuatro etapas en las que se divide el SRER, se encuentran dirigidas por un algoritmo que analiza la información disponible en cada caso, y toma una decisión, con el objetivo de optimizar por un lado los resultados mostrados al usuario y por otro lado el tiempo de respuesta del sistema. Entre las aportaciones de esta tesis, también se encuentra el desarrollo de una metodología de evaluación, que evita el juicio de humanos a fin de ofrecer unos resultados más objetivos. Por último, el SRER, representado a su vez por el algoritmo de recuperación de enlaces rotos, ha sido integrado en una aplicación web denominada Detective Brooklynk. La recuperación de un enlace, es decir, encontrar una página en Internet en función de la información relativa a ella disponible en la página que la apunta, está basada en la hipótesis de que dicha información es coherente. Existen casos es los que los autores de páginas web manipulan la información relativa a una determinada página, con el objetivo de obtener algún beneficio. En esta tesis, analizamos los casos en los que una página web inserta información incoherente acerca de una segunda página apuntada, con el objetivo de promocionarla en un buscador. En la segunda parte de esta tesis, enmarcada dentro del área de la detección de web spam, se parte del concepto de recuperación de enlaces para detectar aquellos de naturaleza fraudulenta. En esta ocasión, el motor del sistema de recuperación de enlaces rotos es modificado para la recuperación de enlaces activos. El objetivo de dicha adaptación es localizar los enlaces cuya información acerca del recurso apuntado es voluntariamente incoherente y por tanto resulta imposible su recuperación. El sistema resultante es capaz de proporcionar un conjunto de indicadores por cada página analizada, empleados para una etapa posterior de clasificación automática. El web spam se divide principalmente en dos grupos de técnicas: aquellas que inciden sobre los enlaces de las páginas web, y las que emplean el contenido para promocionarlas. De esta forma, si mediante el sistema de recuperación de enlaces se consiguen detectar los enlaces fraudulentos, en esta tesis se ha decidido completar la detección de spam de contenido. Para ello, se ha llevado a cabo un análisis de la divergencia entre el contenido de dos páginas enlazadas. El resultado de esta segunda parte de la tesis dedicada a la detección de web spam, es la propuesta de utilización de dos nuevos conjuntos de indicadores. Además, la combinación de ambas características da lugar a un sistema ortogonal que mejora los resultados de detección de ambos conjuntos por separado.
  • Publicación
    Semi‑supervised incremental learning with few examples for discovering medical association rules
    (BioMed Central, 2022) Sánchez‑de‑Madariaga, Ricardo; Cantero Escribano, José Miguel; Martínez Romo, Juan; Araujo Serna, M. Lourdes
    Background: Association Rules are one of the main ways to represent structural patterns underlying raw data. They represent dependencies between sets of observations contained in the data. The associations established by these rules are very useful in the medical domain, for example in the predictive health field. Classic algorithms for association rule mining give rise to huge amounts of possible rules that should be filtered in order to select those most likely to be true. Most of the proposed techniques for these tasks are unsupervised. However, the accuracy provided by unsupervised systems is limited. Conversely, resorting to annotated data for training supervised systems is expensive and time‑consuming. The purpose of this research is to design a new semi‑supervised algorithm that performs like supervised algorithms but uses an affordable amount of training data. Methods: In this work we propose a new semi‑supervised data mining model that combines unsupervised techniques (Fisher’s exact test) with limited supervision. Starting with a small seed of annotated data, the model improves results (F‑measure) obtained, using a fully supervised system (standard supervised ML algorithms). The idea is based on utilising the agreement between the predictions of the supervised system and those of the unsupervised techniques in a series of iterative steps. Results: The new semi‑supervised ML algorithm improves the results of supervised algorithms computed using the F‑measure in the task of mining medical association rules, but training with an affordable amount of manually annotated data. Conclusions: Using a small amount of annotated data (which is easily achievable) leads to results similar to those of a supervised system. The proposal may be an important step for the practical development of techniques for mining association rules and generating new valuable scientific medical knowledge.
  • Publicación
    Web spam detection : new classification features based on qualified link analysis and language models
    (Institute of Electrical and Electronics Engineers (IEEE), 2010-09-01) Araujo Serna, M. Lourdes; Martínez Romo, Juan
    Web spam is a serious problem for search engines because the quality of their results can be severely degraded by the presence of this kind of page. In this paper, we present an efficient spam detection system based on a classifier that combines new link-based features with language-model (LM)-based ones. These features are not only related to quantitative data extracted from the Web pages, but also to qualitative properties, mainly of the page links.We consider, for instance, the ability of a search engine to find, using information provided by the page for a given link, the page that the link actually points at. This can be regarded as indicative of the link reliability. We also check the coherence between a page and another one pointed at by any of its links. Two pages linked by a hyperlink should be semantically related, by at least a weak contextual relation. Thus, we apply an LM approach to different sources of information from aWeb page that belongs to the context of a link, in order to provide high-quality indicators of Web spam. We have specifically applied the Kullback–Leibler divergence on different combinations of these sources of information in order to characterize the relationship between two linked pages. The result is a system that significantly improves the detection of Web spam using fewer features, on two large and public datasets such as WEBSPAM-UK2006 and WEBSPAM-UK2007.
  • Publicación
    Semi‑supervised incremental learning with few examples for discovering medical association rules
    (BioMed Central, 2022) Sánchez‑de‑Madariaga, Ricardo; Cantero Escribano, José Miguel; Martínez Romo, Juan; Araujo Serna, M. Lourdes
    Background: Association Rules are one of the main ways to represent structural patterns underlying raw data. They represent dependencies between sets of observations contained in the data. The associations established by these rules are very useful in the medical domain, for example in the predictive health field. Classic algorithms for association rule mining give rise to huge amounts of possible rules that should be filtered in order to select those most likely to be true. Most of the proposed techniques for these tasks are unsupervised. However, the accuracy provided by unsupervised systems is limited. Conversely, resorting to annotated data for training supervised systems is expensive and time‑consuming. The purpose of this research is to design a new semi‑supervised algorithm that performs like supervised algorithms but uses an affordable amount of training data. Methods: In this work we propose a new semi‑supervised data mining model that combines unsupervised techniques (Fisher’s exact test) with limited supervision. Starting with a small seed of annotated data, the model improves results (F‑measure) obtained, using a fully supervised system (standard supervised ML algorithms). The idea is based on utilising the agreement between the predictions of the supervised system and those of the unsupervised techniques in a series of iterative steps. Results: The new semi‑supervised ML algorithm improves the results of supervised algorithms computed using the F‑measure in the task of mining medical association rules, but training with an affordable amount of manually annotated data. Conclusions: Using a small amount of annotated data (which is easily achievable) leads to results similar to those of a supervised system. The proposal may be an important step for the practical development of techniques for mining association rules and generating new valuable scientific medical knowledge.