DESAFÍO SpRadlE PARA ESTUDIANTES DE COMPUTACIÓN

El Dr. Franco Luque y la Dra. Laura Alonso Alemany impulsan, desde el grupo de investigación en Procesamiento de Lenguaje Natural, un desafío de extracción de información de informes clínicos radiológicos.

En nuestra Facultad la Sección Computación consta de distintos grupo de investigación. Entre ellos, el denominado Procesamiento de Lenguaje Natural, desarrolla una actividad interinstitucional ostensible. En busca de resultados de aplicación concreta, y por lo tanto que permitan solucionar situaciones problemáticas, ha destinado sus esfuerzos a atender diversas áreas temáticas.

Recientemente, dos de sus investigadores -el Dr. Franco Luque y la Dra. Laura Alonso Alemany- se incorporaron al proyecto SpRadlE (Information Extraction from Spanish Radiology Reports). Como lo dice su nombre, el proyecto se propone extraer datos de informes radiológicos en idioma español a fin de efectuar una prospectiva en relación con nuevos informes.

Específicamente la iniciativa trabaja sobre el texto que acompaña a la imagen de un ultrasonido (ecografía) a fin de poder establecer relaciones entre las imágenes del estudio y el registro médico que lo interpreta. Si esto fuera posible se podrían extraer una vinculación a partir de la repetición que permitiera, frente a un nuevo corpus, anticipar las conclusiones.

Para acercarse al objetivo del proyecto, el grupo SpRadlE ha elaborado un desafío de extracción de información del texto clínico en español que en definitiva le permitiría validar y perfeccionar el trabajo realizado. La tarea a realizar tiene como objetivo la detección de siete entidades diferentes, así como señales de cobertura. La identificación de estas entidades permite automatizar la recuperación y extracción de información de los enormes depósitos de informes radiológicos. Las entidades también pueden usarse como etiquetas para entrenar sistemas de procesamiento de imágenes automatizados para auxiliar a los radiólogos en la identificación de anomalías e incluso para sistemas de imagen a texto.

El corpus sobre el que trabajarán aquellos que acepten el desafío consta de un total de 513 informes ecográficos, proporcionados por un hospital pediátrico de Buenos Aires, con más de 17.000 entidades nombradas anotadas.

Toda la información vinculada con el desafío, así como también del proyecto, la podrán encontrar en el siguiente enlace: