por W H Inmon, Forest Rim Technology

El historial médico básico está escrito por proveedores de atención médica para los proveedores de atención médica y sus pacientes.

El propósito principal del expediente médico es documentar y comunicar información importante con respecto a la atención y tratamiento de un paciente. El historial médico se crea normalmente como resultado de un episodio de atención.

La figura 1 muestra un registro típico de atención médica.

 

El desafío de la narración

Gran parte del registro de la salud está escrito en forma narrativa. Muchos temas se discuten típicamente en la narración, incluyendo temas como la historia pasada, la historia familiar, el diagnóstico y las observaciones actuales, los procedimientos, las opciones de tratamiento futuras, etc.

El historial de atención médica es valioso para muchas comunidades: la comunidad clínica, la comunidad de investigación, la comunidad de seguros y así sucesivamente. Pero hay un problema fundamental con los registros de atención médica: incluso cuando el expediente sanitario está escrito en forma de un registro médico electrónico (EMR por sus siglas en inglés), el registro todavía contiene información narrativa.

La información narrativa es útil y necesaria para la comunidad clínica, pero plantea problemas reales para la comunidad investigadora.

EMR

La figura 2 muestra que el registro médico se puede poner en forma de un EMR.

 

Sin embargo, incluso cuando el registro médico se pone en forma de un EMR, todavía contiene cantidades generosas de narrativa. Y la narrativa es lo que le da al analista de investigación tales problemas.

La figura 3 muestra que el EMR está lleno de narrativa.

 

No hay duda de que la narración es necesaria en el expediente médico. Para que los médicos y enfermeras entiendan lo que está pasando con un paciente es obligatorio que la información sea en forma de narración.

La figura 4 muestra que es natural y normal que los registros médicos estén en un formato narrativo.

 

Análisis computarizado

Sin embargo, mientras la información esté en forma de narración, es incómodo y difícil utilizarla para el procesamiento analítico. Hay muchos desafíos en tratar de hacer el procesamiento analítico en base a la información narrativa. El desafío principal es que la tecnología informática se basa en lo que se puede llamar un formato estructurado. Para realizar análisis computarizados, los datos deben estar estrechamente estructurados, lo que no sucede para nada con la información narrativa. Tratar de poner información no estructurada en un formato estructurado es como tratar de colocar una clavija cuadrada en un agujero redondo. Y el hecho de que el historial médico esté en forma de narración significa que el analista que intente usar el registro médico enfrentará desafíos severos.

La figura 5 muestra que el analista informático está molesto cuando se trata de hacer un procesamiento analítico de la información narrativa.

 

TEXTUAL ETL & Desambiguación

Entra en esta refriega Textual ETL. Es la tecnología diseñada para leer información narrativa y colocar dicha información no estructurada en un formato computarizado y estructurado. Textual ETL utiliza muchas técnicas y enfoques para la lectura e interpretación del texto, “desambiguando” el texto no estructurado en un formato estructurado.

Textual ETL se ha utilizado en muchos entornos. El entorno de registros médicos es simplemente uno de los muchos entornos donde la transformación de la narración en un formato de base de datos estructurados es útil.

La figura 6 muestra que el Textual ETL es capaz de leer información textual y, por medio de la desambiguación, crea una base de datos estándar a partir del texto.

 

Normalización del texto

Ser capaz de crear una base de datos desambiguada a partir de información de narración no estructurada es una tecnología interesante y útil. Los datos estructurados que se producen a partir de Textual ETL se encuentran en una forma de datos que se denomina “normalizado”, además de ser desambiguado.

La forma normalizada de datos tiene mucho que recomendar, especialmente al analista informático. Cuando el texto se normaliza, se puede colocar en una base de datos, además de editar, clasificar y ordenar.

Análisis de muchos registros

Tal vez la mayor ventaja de la transformación del texto no estructurado en una forma de datos desambiguada y normalizada es la capacidad de analizar una cantidad ilimitada de registros. Una de las grandes limitaciones de la narración es que para analizarla, el texto debe ser leído. Y solo hay una cantidad finita de datos que se pueden leer e ingerir. Pero cuando los datos se transforman en un estado desambiguado y normalizado, el equipo ahora es capaz de analizar millones de registros. Dicho de forma diferente, si se debe leer el texto no estructurado, solo se puede analizar un número finito de registros. Pero una vez que el texto se coloca en un formato estructurado, un número ilimitado de registros se puede ingerir y analizar.

La figura 7 representa el Textual ETL y la producción de texto normalizado.

 

La normalización del texto es un paso adelante poderoso e importante, pero todavía hay desafíos con el texto normalizado.

Aunque el texto normalizado se puede colocar en una base de datos cuidadosamente estructurada, todavía no es fácil trabajar con él. El mayor desafío es que al normalizar el texto, cada fila de texto contiene solo una palabra o frase de datos. Esa sola palabra o frase tendrá muchas relaciones con otras unidades de datos. Algunas de esas relaciones son directas y obvias, pero otras de las relaciones no son obvias en absoluto. Tratar de mantener esas relaciones rectas es todo un desafío, incluso para los analistas informáticos más astutos.

La complejidad inherente de los datos normalizados

La figura 8 muestra que las filas individuales de datos que se encuentran de manera lineal en una base de datos normalizada pueden formar una compleja “telaraña” de relaciones. La “telaraña” resultante es compleja de tratar. Desafortunadamente, las relaciones web de esas arañas son necesarias para dar sentido a los datos normalizados que se encuentran en la base de datos estructurada.

 

Una buena solución al problema de la complejidad del texto normalizado es la de tomarlo y reestructurarlo después de su creación. El resultado es una estructura de texto que representa el texto sin procesar en el expediente médico y es razonablemente intuitivo (¡el registro reestructurado es, sin duda, más intuitivo que los datos normalizados sin procesar!)

Reestructuración del texto normalizado en el registro médico

La figura 9 muestra el proceso de reestructuración de los datos normalizados que emanan de la Textual ETL .

 

El registro desambiguado y reestructurado contiene los mismos datos que la tabla normalizada. La diferencia es que el registro reestructurado está diseñado para ser mucho más útil que los datos normalizados.

Cómo es el registro médico desambiguado y reestructurado

La figura 10 muestra el registro reestructurado y desambiguado que se ha creado a partir de los datos desambiguados. (Nota: el nombre del paciente ha sido cubierto con fines de privacidad.)

 

La primera característica de los datos desambiguados reestructurados es que es inmediatamente obvio qué datos pertenecen a qué paciente. El nombre del paciente se extiende sobre el lado derecho del registro. Por lo tanto, de un vistazo no hay ambigüedad en cuanto a qué paciente se refieren los datos en toda la estructura.

La figura 11 muestra la obviedad del nombre del paciente.

 

La segunda característica del registro desambiguado reestructurado es que los datos se alinean secuencialmente tal como se encontraron en el documento de origen. Nunca hay ninguna duda sobre qué datos se han encontrado en qué secuencia.

La figura 12 muestra que el registro de datos está en secuencia y que los datos se ordenan en el orden adecuado.

 

El centro de atención es la palabra o frase que ha sido seleccionada por Textual ETL. La selección de la palabra o frase del expediente médico de origen puede haber sido el resultado de una variedad de técnicas. La palabra o frase podría ser el resultado de una resolución taxonómica. O la palabra podría haber sido escogida debido a una similar resolución gráfica. O la selección podría deberse a una resolución de acrónimos. De hecho, hay muchas razones por las que la palabra o frase podría haber sido seleccionada del registro médico de origen al leer y procesar el texto sin procesar en el expediente médico.

La figura 13 muestra la selección de la palabra o frase y su colocación en la base de datos.

 

Una característica importante tanto del registro médico de origen como de la base de datos resultante es el apoyo a la negación de un término. En ocasiones, el médico escribirá: “este tumor no era maligno”. En este caso, el analista necesita saber que hay una negación del término o frase. El procesamiento Textual ETL encuentra y reconoce la negación a medida que se lee el documento de origen.

La figura 14 muestra que las palabras o frases pueden ser negadas por el médico o la enfermera que escribe el expediente médico.

 

Otra característica importante del Textual ETL es el apoyo a la resolución taxonómica/ontológica.

Algunas palabras y frases escritas por el médico/enfermero que crea el expediente médico tienen una clasificación taxonómica/ontológica asociada a ellas. Esto siempre es cierto si la palabra/frase se seleccionó debido a una resolución taxonómica. A veces es cierto en otras condiciones.

La resolución taxonómica/ontológica es importante para la desambiguación de las palabras utilizadas por el médico/enfermero en la redacción del informe médico.

Como un simple ejemplo de resolución taxonómica, el término medicamento se puede aplicar a la palabra: “Zofran” o “Metformina”.

La figura 15 muestra que, cuando es apropiado, una resolución taxonómica está asociada con la palabra o frase.

 

Otra característica importante del expediente médico es la organización del propio registro.

Al crear sus notas para el expediente médico, el médico a menudo crea pequeñas subclasificaciones, con el propósito de organizar el informe. Por ejemplo, el médico puede escribir:

NARIZ: xxxxxxxxxxxxxxxxxxxxxxx

o

CORAZÓN: xxxxxxxxxxxxxxxxxxxxxxxxxxxxx

Después de la subclasificación sobre “NARIZ”, el médico escribirá observaciones, tratamientos, medicamentos, etc. que se relacionan con la nariz. Es útil para el analista saber que la palabra o frase que se ha seleccionado forma parte de esta subclasificación.

La figura 16 muestra que Textual ETL recoge las subclasificaciones que hace el médico.

 

Y en otras ocasiones el médico hace clasificaciones importantes de datos. Estas superclasificaciones de información tienden a ser más amplias y de alcance más general que las subclasificaciones más pequeñas del texto. Estas superclasificaciones de datos pueden ser tituladas “impresiones”, “evaluación”, “plan de tratamiento”, y así sucesivamente. Es muy útil para que el analista sepa que la palabra o frase que se ha seleccionado es parte de las principales clasificaciones que se encuentran en las notas de los médicos.

La figura 17 representa las principales clasificaciones de texto cuando existen.

 

Al crear la clasificación “súper” del texto, un médico puede organizar sus notas de manera que sea fácil de entender y leer. Los datos reestructurados y desambiguados encontrados en la base de datos reflejan esa organización.

El efecto de la reestructuración de los datos de acuerdo con las líneas de pensamiento creadas por el médico DE FORMA IMPORTANTE      mejora la capacidad del analista para entender qué datos tiene en cualquier momento. Cuando el analista tiene en su mano una palabra o frase, es inmediatamente claro:

  • A qué paciente se aplica la palabra o frase.
  • El orden en que la palabra o frase aparece en el documento de origen.
  • Si la palabra o frase ha sido negada en el contexto del documento de origen.
  • Cualquier clasificación taxonómica que se aplique a la palabra o frase.
  • Cualquier subclasificación que el médico haya pretendido.
  • Cualquier superclasificación de datos que el médico haya previsto.

En una frase, una vez reestructurado el texto lineal desambiguado, es fácil y natural para el analista crear su análisis.

Y en cualquier caso existe una relación hermética entre el documento de origen y los datos desambiguados reestructurados que se encuentran en la base de datos.

La figura 18 muestra esta relación muy estrecha.

 

La relación entre narración y base de datos

Debido a Textual ETL y a la reestructuración de los datos desambiguados producidos por Textual ETL, tanto la comunidad médico-enfermera como la comunidad de investigación analítica tienen la información que requieren en la forma que necesitan para hacer su trabajo.

La figura 19 muestra el efecto unificador de Textual ETL y la reestructuración de los datos desambiguados.

 


Bill Inmon es el fundador de Forest Rim Technology, la empresa que produce Textual ETL y la reestructuración de datos desambiguados. Forest Rim se complace en hacer una prueba de concepto para mostrarle el valor de poder administrar sus datos textuales que se encuentran en su historial médico. Forest Rim Technology se encuentra en Castle Rock, Colorado.