Desenmascarando mensajes implícitos y sutiles: enfoques de PLN para detectar y contrarrestar discursos de odio en línea

27 Ago. 2025 - Google meet Estudiantes

Seminario virtual dictado por el Dr. Nicolás Benjamín Ocampo

Resumen: La investigación sobre la detección de contenido abusivo en redes sociales se ha centrado principalmente en el discurso de odio explícito, que es más fácil de identificar debido a la presencia de lenguaje abiertamente hostil. Sin embargo, las formas implícitas de discurso de odio —como la circunlocución, las metáforas y el sarcasmo— plantean desafíos significativos para los sistemas automáticos de detección. Aunque estas expresiones encubiertas puedan parecer menos dañinas, son igualmente perjudiciales y pueden alimentar narrativas nocivas. Esta tesis realiza varias contribuciones para abordar estos desafíos: i) Análisis de datos sobre discurso de odio implícito y sutil en relación con otros fenómenos de lenguaje abusivo. ii) Presentación de ISHate, el primer conjunto de datos específicamente creado para el discurso de odio implícito y sutil, recopilado de siete fuentes diferentes con etiquetado preciso. iii) Propuesta de nueve métodos para generar datos sintéticos mediante perturbación de la entrada y un método adicional utilizando GPT-2 ajustado finamente. iv) Desarrollo de un nuevo enfoque para generar instancias adversarias de discurso de odio mediante constrained beam search. v) Propuesta de tres nuevos enfoques de detección: un enfoque Build-It-Break-It-Fix-It (BIBIFI) que utiliza entrenamiento incremental con instancias sintéticas difíciles de discurso de odio implícito; ContBERT y ContHateBERT, que emplean contrastive learning para mejorar la representación de embeddings del discurso de odio implícito; y ISContBERT e ISContHateBERT, que refinan aún más contrastive learning vinculando mensajes implícitos con explícitos mediante el estereotipo negativo que conllevan. Estos métodos buscan cerrar la brecha entre el discurso de odio implícito y explícito, asegurando que los mensajes implícitos no se clasifiquen erróneamente como no odiosos. vi) Exploración de estrategias para detectar y explicar el discurso de odio utilizando modelos de lenguaje de gran escala (LLMs) en configuraciones zero-shot, few-shot y fine-tuning. Además, se investiga cómo responden los LLMs cuando se les guía con información procedente de modelos de detección, como los tokens de atención de BERT, etiquetas predichas, probabilidades y declaraciones implícitas. vii) Integración de nuestros hallazgos en un sistema llamado PEACE (Providing Explanations and Analysis for Combating hate Expressions), que unifica análisis explicativo, detección e interpretabilidad para el discurso de odio. viii) Exploración del contra-discurso o counterspeech (CS) como estrategia de intervención, generando respuestas no agresivas que contrarresten el discurso de odio mediante argumentos basados en hechos y puntos de vista alternativos. En particular, evaluamos si eliminar restricciones a los LLMs mejora la calidad del contra-discurso y si centrarse en la estructura argumentativa de los mensajes de odio incrementa la eficacia del contra-discurso. Nuestros hallazgos sugieren que incorporar estructuras de mensajes implícitos e identificar elementos de odio dentro del texto puede mejorar la generación de contra-discurso. Esta tesis abre el camino para futuras investigaciones interdisciplinarias sobre el discurso de odio implícito, un problema que a menudo se asume resuelto pero que sigue siendo un asunto persistente y complejo en el discurso en línea.

Bío: El investigador es un PostDoc en el grupo de investigación Human-Centered Data Analytics (HCDA) del Centrum voor Wiskunde en Informatica (CWI) en Ámsterdam, Países Bajos. Su trabajo actual se centra en el uso de técnicas de Inteligencia Artificial para contrarrestar la desinformación y el discurso de odio de manera automática.

Obtuvo su doctorado en Ciencias de la Computación en la Université Côte d’Azur (Francia), como miembro del equipo de investigación Marianne en las instituciones Inria, CNRS e I3S. Su tesis se enfocó en la detección de lenguaje abusivo implícito y sutil utilizando Aprendizaje Automático y Procesamiento del Lenguaje Natural (PLN).