White Paper

Reconocimiento de conceptos clínicos

expresados en lenguaje natural

Junio de 2000

© 2000 NatSlang, s.l. Todos los derechos reservados

Introducción

Presentamos la primera generación de scriptum® un motor de reconocimiento de conceptos clínicos expresados en lenguaje natural (LN), como núcleo de una serie de herramientas orientadas a la gestión del conocimiento que desarrolla NatSlang.

Nuestra misión es identificar los conceptos clínicos implícitos en una expresión dada en lenguaje natural, tomando como referencia un Vocabulario Médico Controlado (VMC), en el cual está expresado el conocimiento generalmente aceptado para el desarrollo de la práctica médica, con el objetivo de:

 

La razón principal por la que hemos seleccionado el tratamiento del lenguaje natural para desarrollar el motor scriptum® es la flexibilidad que ofrece para recuperar la información relevante cuando un médico realiza su práctica profesional, sin necesidad de cambiar su manera habitual de expresarse.

Ya sea por la premura de tiempo o por la utilización de historias clínicas orientadas a una codificación rígida de diagnósticos y procedimientos, el médico rara vez puede documentar la realidad clínica de un paciente, cuando el valor real de la historia clínica reside en los detalles que explican la historia natural de una enfermedad.

El tratamiento del lenguaje natural nos ayuda a visualizar entre miles de documentos no estructurados allí donde existen puntos de explicación intencional (significativa) de un hecho clínico: contacto con el paciente en un punto de asistencia, anamnesis, exploraciones, procedimientos diagnósticos, procedimientos terapéuticos, interpretaciones diagnósticas, planes de actuación, procesos asistenciales y, finalmente, la epicrisis como resumen clave de la situación del paciente.

La futura historia clínica informatizada, gracias a la flexibilidad y la potencia que le ofrece el tratamiento del lenguaje natural, podrá volver a sus orígenes: la descripción minuciosa de la enfermedad y sus distintas manifestaciones clínicas, conjugando la narración con la codificación asistida o automatizada de los conceptos clínicos relevantes en cada contexto.

 

Métodos

Cada concepto clínico dispone de una descripción en lenguaje natural generalmente aceptada y puede estar codificado en diferentes sistemas de clasificación (ICD9-MC, ICD10, DRG, ICPC, CPT, SNOMED, etc.), a través de un código unívoco que identifica su nivel dentro de una organización jerárquica.

Nuestro enfoque parte del tratamiento del lenguaje utilizado en la práctica médica para desarrollar una tecnología de reconocimiento de conceptos configurados en un Vocabulario Médico Controlado. Se ha escogido la clasificación ICD9-MC para desarrollar el primer prototipo, pero el proceso de reconocimiento es independiente del sistema de clasificación. El esquema del VMC permite la incorporación de múltiples catálogos estructurados en distintos sistemas de clasificación. Permite a su vez, establecer múltiples vinculaciones, a parte de las jerarquías propias de cada clasificación (sinonimias, correspondencias, etc.), manteniendo siempre su consistencia.

En la tecnología de reconocimiento de conceptos que hemos utilizado confluyen las dos aproximaciones vigentes en el tratamiento del lenguaje natural, una basada en el conocimiento lingüístico, generalmente ligada a las formulaciones derivadas de la teoría de gramáticas formales, y la otra, al tratamiento empírico de corpus textuales a partir de modelos estadísticos.

Toda expresión en LN dispone de un determinado nivel de coincidencia de palabras con la definición de un concepto clínico en un VMC. Un mismo concepto puede ser expresado de múltiples maneras en LN, pero cada expresión contendrá alguno de los términos asociados al concepto definido en el VMC.

A cada concepto del VMC le asociamos un conjunto de activadores que pueden ser un término concreto, una secuencia de términos, un acrónimo, etc. Este conjunto de activadores es la información que modeliza y define el uso de cada concepto.

 

Activador: Es la concatenación de términos relevantes para un concepto

 

El hecho de que los conceptos estén organizados en jerarquías multinivel dentro del VMC, condiciona la disposición del conjunto de activadores. En la fig. 1 vemos el desarrollo del árbol típico de un concepto clasificado con ICD9-MC. La tabla 1 presenta una muestra de los activadores definidos para los distintos niveles del árbol.

 

Fig. 1

 

 

T a b l a 1

Código
Descriptor
Activadores
054 Herpes simple herpes, herpes_simple
054.7 Herpes simple complicada – ncoc herpes_simple_complicado
054.71 Herpes simple visceral herpes_simple_visceral
054.72 Meningitis por Herpes simple meningitis
054.73 Otitis externa por Herpes simple otitis, otitis_externo

Es importante que la flexión de los términos (singular, plural, masculino, femenino, conjugación, etc.), no condicione el proceso de reconocimiento de todos los posibles conceptos para una expresión en LN. Con esta finalidad, los activadores están formados por lemas de palabras y a la hora de evaluar si un activador aparece en una expresión comparamos el activador con los lemas de las palabras de la expresión. Así, "enfermedad" es lema de "enfermedad" y "enfermedades", "complicado" es lema de "complicado", "complicada", "complicados" y "complicadas", etc.

 

Lema: Término básico que representa todas las formas que permite una lengua

 

 

Arquitectura

El motor scriptum® dispone de tres componentes principales (ver fig. 2):

 

Fig. 2

Es una base de conocimiento lexico-conceptual que articula el Vocabulario Médico Controlado. Su estructura está basada en el modelo EuroWordNet, estándar europeo diseñado para explotar recursos lingüísticos. A partir de unos catálogos fuente (ICD9-MC), se realiza un proceso de adquisición de conocimiento que genera los activadores que posteriormente son fijados de manera recursiva en los diferentes niveles jerárquicos del VMC.

Las jerarquías de conceptos ya lematizadas son tratadas recursivamente en dos fases:

c1) Generación de candidatos a activadores

Genera todos los posibles candidatos a activador a partir del análisis morfológico de las descripciones de los conceptos, siguiendo unos patrones preestablecidos. Cuantos más lemas formen un activador, más específico será el concepto con el cual está vinculado.

c2) Cálculo de relevancia de candidatos

De la lista de activadores candidatos se calcula la relevancia de cada uno, se seleccionan los más idoneos y se distribuyen por la jerarquía en función de su grado de relevancia.

Todos los métodos de adquisición de conocimiento se han realizado con el lenguaje PERL. La base de datos que guarda el conocimiento de WordMed ha sido implementada con miniSQL de Hugues Technologies. La interface de usuario para el mantenimiento de la base de datos se ha implementado en un entorno web con JavaScript.

WordMed queda así configurada como el repositorio de un VMC que ha sufrido un proceso de normalización, etiquetado morfológico, generación, selección y vinculación de activadores con las distintas jerarquías de conceptos clínicos.

Es el componente encargado de analizar una expresión en LN con el propósito de detectar unos activadores candidatos que serán comparados con los existentes en la base de conocimiento WordMed® para poder localizar los conceptos relacionados con la expresión analizada.

El tratamiento de la expresión en LN sigue un ciclo en tres tiempos (ver fig. 4):

El resultado de procesar una expresión en LN será pues un conjunto de conceptos del VMC seleccionados a partir de la concordancia con sus activadores.

 

Los métodos para lematizar la expresión en LN, detectar los activadores y seleccionar los conceptos del VMC correspondientes se han realizado integramente en Java 2 .

 

 

3. Interface con aplicaciones externas

En la fase actual de desarrollo del motor scriptum® disponemos de un prototipo que incorpora la base de conocimiento WordMed® y el PLN de manera encapsulada (ver fig. 5). La base de conocimiento es actualizada de manera progresiva cada vez que se completa un nuevo proceso de adquisición de conocimiento descrito en la sección 1.

Un programa en VisualBasic instala un botón de activación del motor en Microsoft Word. A partir de su activación, una interface gráfica desarrollada en Java 2 permite al usuario entrar expresiones en LN, ver qué conceptos han sido reconocidos en el VCM y seleccionar el más adecuado para incorporarlo en el documento activo del editor Word. Este prototipo es el primer paso para poder evaluar la capacidad y la precisión en el reconocimiento de conceptos.

Actualmente se está desarrollando una plataforma de conectividad que permita a cualquier aplicación externa invocar las clases Java 2 de scriptum® para usar sus recursos de tratamiento del lenguaje natural y explotar de manera compartida la base de conocimiento WordMed® con su Vocabulario Médico Controlado.

 

 

 

Resultados

Una primera evaluación del prototipo de scriptum® ha sido comprobar su utilidad en la codificación asistida de diagnósticos y procedimientos. Se han realizado una serie de pruebas a partir de un patrón de caso clínico estructurado (PCCE) para medir la especificidad del procesador de lenguaje natural en el reconocimiento de conceptos del Vocabulario Médico Controlado y compararlo con otras herramientas que utilizan métodos de indexación.

A partir de distintas expresiones en LN del PCCE se han ido ponderando los resultados con los diferentes conceptos identificados y sus especializaciones en otros conceptos. En todos los casos las expresiones en LN introducidas no representan directamente un concepto concreto del VMC. El resultado ponderado siempre son los conceptos a los cuales pretende hacer referencia la expresión con independencia de las posibles flexiones de las palabras empleadas (singular-plural, masculino-femenino, etc.).

Los primeros resultados muestran una concordancia del 90,5 % entre la expresión en LN y el concepto objetivo en una primera búsqueda, un 7 % más en dos busquedas y un 2,5 % más en tres búsquedas. Actualmente se están diseñando unos criterios de evaluación que permitan realizar un estudio multicéntrico con distintos evaluadores para que sus conclusiones nos ayuden a optimizar el rendimiento y la precisión del motor de reconocimiento.

A la luz de estos primeros resultados vemos que el tratamiento del LN es claramente superior a los métodos de indexación y recuperación tradicionales. La incorporación de métodos de procesamiento del lenguaje permite detectar las formas no estándar tanto de las fuentes de conocimiento como de los documentos redactados por los profesionales. El médico puede seguir utilizando su manera habitual de expresión, sin que por ello queden sin identificar y recuperar los conceptos clínicos relevantes.

 

 

Conclusiones

Mientras que los métodos habituales de recuperación de la información, bien a partir de la indexación global de documentos, o bien, a partir de la gestión de categorías clínicas codificadas, suelen basarse en un número predefinido de perfiles de búsqueda con unos atributos donde han de encajar los resultados obtenidos, el tratamiento del lenguaje natural nos permite una mayor flexibilidad para bucear entre grandes volúmenes de información y hace emerger aspectos de interés que podrían haber permanecido ocultos.

Los resultados de la evaluación del prototipo de scriptum® nos indican que podemos avanzar en las siguientes líneas de actuación:

1. Aumentar la precisión en el análisis de expresiones en LN mejorando la especificidad de los activadores generados y estableciendo mas vinculaciones entre ellos para discriminar mejor los conceptos clínicos de referencia en el VMC.
2. Completar el VMC con nuevas incorporaciones para abarcar todas las fuentes léxicas del conocimiento terminológico médico (nomenclatura anatómica, determinaciones de laboratorio, procedimientos de diagnóstico por la imagen, DSM-V, etc.).
3. Incorporar capacidades de reconocimiento de conceptos a partir de textos no estructurados de manera automatizada y desasistida (por ej. proceso de lotes de informes de alta para su codificación automatizada, etc.).
4. Establecer una interoperabilidad con cualquier motor de base de datos y sobre plataformas iNET a través del marcaje con XML (eXtensible Markup Language) y la definición de tipos de documentos DTD (Document Type Description).
5. Diseñar motores de búsqueda y vinculación de conceptos que trabajen de manera interactiva mientras se escribe un informe para dar soporte a los facultativos y enfermería en la redacción de sus anotaciones clínicas.
6. Ampliar la base de conocimiento WordMed® a través de vinculaciones con repositorios de alertas, recordatorios y orientaciones terapéuticas (patrones ARO).
7. Diseñar nuevas relaciones entre conceptos de los distintos catálogos del VMC para establecer correspondencias lógicas entre diagnósticos, procedimientos, signos, síntomas, fármacos, etc.
8. Incorporar distintos idiomas en la base de conocimiento WordMed® para establecer correspondencias multilingües entre los conceptos del VMC.

Agradecimientos

Nuestro agradecimiento al CIDEM (Departament d’Indústria de la Generalitat de Catalunya) por su apoyo económico dentro del programa de ayuda a las empresas que desarrollan proyectos de I+D. También al Secretariat per a la Societat de la Informació, la Fundación Retevisión y Ericsson Innova por su apoyo económico dentro del programa "Emprenedors-@ 2000" de ayuda a proyectos de innovación en tecnologías de la información.

Estamos en deuda con la Dra. Juliana Ribera, el Dr. Josep M. Picas y el Dr. Horacio Rodríguez por la revisión del material y sus siempre valiosos comentarios. Finalmente, hemos de agradecer a todo el equipo de profesionales de NatSlang su esfuerzo y motivación.

 

Bibliografía

Acebo S, Ageno A, Climent S, Farreres J, Padró L, Ribas F, Rodríguez H, Soler O. MACO, Morphologic Analyzer Corpus Oriented. Acquilex II, WP 31, 1994.

Arranz V, Turmo J, Carreras X, Arévalo M. scriptumÒ and WordMed: Development of Terminological Resources for the Medical Practitioner. Patras, 2000.

Baud RH, Lovis C, Rassinoux AM, Scherrer JR. Alternative Ways for Knowledge Collection, Indexing and Robust Language Retrieval. Meth. Inform. Med., Vol. 37, No.4-5, 1998.

Blasco, J.L.; Grimaltos, T. Teoria del coneixement. Universitat de València, 1997.

Blois MS. Information and Medicine, The Nature of Medical Descriptions. University of California Press. Berkeley, 1984

Cabré MT. La terminologia, la teoria, els mètodes, les aplicacions. Les Naus d’Empúries. Barcelona, 1992.

Carmona J, Cervell S, Màrquez L, Martí M.A., Padró L, Placer R, Rodríguez H, Taulé M, Turmo

J. An Environment for Morphosyntactic Processing of Unrestricted Spanish Text. Actas de LREC'98, Granada, 1998.

Carreras X. Construcció i explotació de jerarquies conceptuals terminológiques. Projecte de fi de carrera, Facultat d’Informática de Barcelona, Universitat Politècnica de Catalunya. Barcelona, 2000.

Ceusters W, Buekens F, De Moor G, Waagmeester A. The Distinction between Linguistic and Conceptual Semantics in Medical Terminology and its Implication for NLP-Based Knowledge Acquisition. Meth. Inform. Med., Vol. 37, No.4-5, 1998.

Cimino JJ. Formal Descriptions and Adaptative Mechanisms for Changes in Controlled Medical Vocabularies. Meth. Inform. Med., Vol. 35, No.3, 1996.

Crespo del Arco J, Maojo Y, Martín F, Rodríguez Pedrosa J, Sáez L. Vocabularios Médicos Controlados Multipropósito. Informática y Salud, núm. 17. Madrid, 1998.

Escudero G. Construcció d’un entorn de desenvolupament per a WordNets. Projecte de fi de carrera, Facultat d’Informática de Barcelona, Universitat Politècnica de Catalunya. Barcelona, 2000.

Friedman C, Hripcsak G. Evaluating Natural Language Processors in the Clinical Domain. Meth. Inform. Med., Vol. 37, No.4-5, 1998.

Padró L. A Hybrid Environment for Syntax-Semantic Tagging. Tesis Doctoral, Departament de Llenguatges i Sistemes Informàtics, Universitat Politècnica de Catalunya, Barcelona, 1987.

Peterson J.L. Computer Programs for Detecting and Correcting Spelling Errors. Communications of the ACM (23), 12. 1980.

Kay S, Purves IN. Medical Records and Other Stories: a Narratological Framework. Meth. Inform. Med., Vol. 35, No.2, 1996.

Rassinoux AM, Miller RA, Baud RH, Scherrer JR. Modeling Concepts in Medicine for Medical Language Understanding. Meth. Inform. Med., Vol. 37, No.4-5, 1998.

Rodríguez H. Técnicas estadísticas en el tratamiento del lenguaje natural. Filología e informática, nuevas tecnologías en los estudios filológicos. Seminario de Filología e Informática, Universidad Autónoma de Barcelona, 1999.

Salton G, McGill MJ. Introduction to Modern Information Retrieval. McGraw-Hill, 1983.

Turmo J, Català N, Rodríguez H. TURBIO, A System for Extracting Information from Restricted-Domain Texts. Lecture Notes in Artificial Intelligence 1415. Subseries of Lecture Notes in Computer Science, Vol. 1. Ed. Mira J, Pasqual A, Ali M, 1998.

Vilalta J, Picas JM. Plan de Información de un Sistema de Salud. SYNFOSS, Col·legi de Economistes de Catalunya. Barcelona, 1991.

Vossen P. Editor. EuroWordNet. A Multilingual Database with Lexical Semantic Networks. Kluwer Academic Publishers. Dordrecht, The Netherlands, 1998.