por W H Inmon, Forest Rim Technology

En el mundo actual, la mayoría de los registros médicos son en forma de EMR (o HER). Con EMR, la comunidad médica es capaz de capturar y transferir registros médicos con el computador.

Pero hay un talón de Aquiles en EMR: el EMR contiene texto, o información narrativa. El problema con el texto o la información narrativa es que para ser manejado útilmente por el computador, necesita ser puesto en un formato estructurado que sea compatible con el sistema operativo. El texto —narrativo— es casi inútil para el computador cuando está en forma de texto.

Al colocar el contenido del EMR en el formulario que es útil para el equipo, la comunidad médica puede leer y analizar una cantidad ilimitada de datos. Dicho de manera diferente, cuando hay texto en el EMR, la comunidad médica se limita a la cantidad de datos que puede ser leído o analizado manualmente por un individuo. Y un individuo solo puede procesar manualmente un número muy finito de documentos. Al poner el registro médico en la forma que le resulta útil al computador, la comunidad médica abre la posibilidad de leer y analizar miles y miles de registros médicos de manera eficiente y conveniente. Cuando un individuo intenta procesar esos registros que contienen texto, solo puede procesar una pequeña fracción de los mismos.

Afortunadamente, hay una nueva tecnología que permite que el texto que se encuentra en el EMR se transforme en una estructura que es susceptible de acceder al ordenador. Esa tecnología se conoce como Textual ETL.

Textual ETL es una tecnología que lee textos narrativos sin procesar, como el que se encuentra en los registros médicos, y convierte ese texto en una base de datos estructurada estándar. Una parte central e importante de la labor que realiza Textual ETL es la desambiguación del texto que se encuentra en el expediente médico que se ha leído. La base de datos que se produce contiene texto “normalizado” o “desambiguado”.

El proceso TEXTUAL ETL

Textual ETL lee y procesa un expediente médico. La figura 1 muestra el proceso  Textual ETL esencial.

El resultado del proceso de desambiguación realizado por Textual ETL es la “normalización” del texto. El texto se produce de forma lineal en una base de datos. Si bien la base de datos que produce Textual ETL es utilizable, la linealidad de los datos encontrados en la base de datos hace que sea menos que intuitivo para el neófito. Para que los datos de la base de datos sean más aprovechables e intuitivos es necesario reestructurar los datos dentro de la base. Una vez reestructurados, los datos son mucho más “amigables” o intuitivos para la persona que necesita utilizarlos.

Reestructuración de los datos desglosados y normalizados

La figura 2 muestra que los datos que salen de Textual ETL se reestructuran en un formato más intuitivo.

El formato de las filas reestructuradas que se producen como resultado de la reestructuración se ve como en la figura 3.

A primera vista, las filas que se producen son un archivo simple y plano. Inicialmente no es intuitivo que las filas contengan algo muy importante o interesante, pero en un examen más detallado, las filas que son producidas por el proceso Textual ETL/reestructuración reflejan la narración encontrada en el expediente médico.

Para ver la relación entre el registro médico de origen y el registro de base de datos con formato reestructurado que se ha creado, tenga en cuenta lo siguiente.

Extraer palabras y frases del registro médico

La figura 4 muestra que el expediente médico ha sido escaneado y analizado, y que ciertas palabras y frases han sido seleccionadas del registro médico para su inclusión en la base de datos.

La palabra/frase que se ha seleccionado para su inclusión en la base de datos es el resultado de uno de los muchos tipos diferentes de procesamiento realizado por Textual ETL. Algunos de los procesos textuales de ETL que podrían ser responsables de la selección de la palabra o frase incluyen la resolución de taxonomía, la resolución del homógrafo o la resolución de acrónimos. La palabra o frase podría haber sido seleccionada también por Textual ETL debido a  resolución de proximidad, detención del procesamiento de texto, procesamiento de variables personalizadas o contextualización en línea. Hay muchas otras técnicas para la selección de la palabra o frase que se encuentra en el expediente médico. Textual ETL ha seleccionado la palabra o frase porque es importante en el expediente médico y necesita estar disponible para el analista de investigación. Sin embargo, la palabra o frase fue seleccionada para el registro médico y se encuentra en la fila de datos que se ha extraído, como se ve en el diagrama.

Identificación del paciente

En la misma fila de datos en la base de datos se encuentra la identificación del paciente, como se ve en la figura 5.

Se ve en la figura que el identificador del paciente se ha localizado en el expediente médico. A continuación, el identificador del paciente se adjunta a cada fila de la base de datos que pertenece al registro médico. Debido a que el identificador del paciente y la palabra o frase que es de interés se encuentra en la misma fila, es muy evidente e inmediato saber para quién la palabra o frase fue escrita en el expediente médico.

Negación de la palabra o frase

Otra parte importante de los datos es la negación del término. La figura 6 muestra que ocasionalmente un término encontrado en un expediente médico será negado por el médico que escribe el informe médico.

Ocasionalmente un médico dirá: “El paciente no tiene angina de pecho”. En este caso, hay una negación del término que se encuentra en el expediente médico. Es muy sencillo y obvio cuando un término —una palabra o frase— ha sido negado porque la negación aparece en la misma fila de datos que la palabra o frase que se niega.

Identificación taxonómica de una palabra o frase

Otra relación importante de los datos es la categorización taxonómica de la palabra o frase. Palabras o frases típicas que son taxonómicamente significativas en el mundo de la medicina incluyen palabras de Snomed o ICD 10, por ejemplo.

La figura 7 muestra que la categorización taxonómica de la palabra o frase se encuentra en la misma fila que la palabra o frase.

No todas las palabras o frases tienen una categorización taxonómica. Si ese es el caso, esta columna de datos estará en blanco. Pero si una palabra o frase tiene una categorización taxonómica, aquí es donde se encontrará. También tenga en cuenta que en ocasiones una palabra o frase tendrá más de una categorización taxonómica. Si ese es el caso, habrá más de una fila de datos que se ha creado. Habrá una fila de datos creada para cada categorización taxonómica que se aplica a la palabra o frase.

Como un ejemplo simple de una categorización taxonómica, la palabra “Zofran” podría clasificarse como un medicamento.

La categorización taxonómica puede aparecer por diversos medios en Textual ETL. Los medios más comunes por los que aparece la categorización taxonómica es mediante una simple resolución de taxonomía. Pero hay otras técnicas por las que también aparece la categorización de taxonomía.

La categorización taxonómica es más útil en la desambiguación del texto.

Subclasificación en el registro médico

Otro dato importante que se encuentra en la base de datos reestructurada es el de la subclasificación del texto creado por el médico que hace el registro médico. La figura 8 muestra la subclasificación de los datos.

Una subclasificación de datos puede ser algún tema como “Nariz”. El paciente puede haber tenido alguna condición notable que pertenece a la nariz. El médico simplemente crearía una categoría de datos para “Nariz”, entonces el médico comenzaría a hacer comentarios sobre la nariz. Si esos comentarios incluyen la palabra o frase que se ha seleccionado, la subcategoría aparecerá en esta parte del registro de la base de datos.

Subclasificación de texto en el registro médico

En línea con la creación del médico de subcategorías está la ocasional “supercategoría” de texto que se crea. La figura 9 muestra la supercategoría de texto y dónde se coloca en el registro de la base de datos.

Una superclase de categorización podría parecer una “impresión” de los médicos, una “evaluación” o un “plan de tratamiento”. La supercategorización puede o no incluir una o más subclases, dependiendo del estilo del médico en la creación del expediente médico.

El orden del texto

Otra característica importante de los registros de datos que se crean es el orden en el que el médico ha creado el registro. La figura 10 muestra que la secuencia de términos creada por el médico en el expediente médico se registra y mantiene.

Identificación del registro médico

Y una última información importante es la de la identificación del expediente médico en sí. La figura 11 muestra que la identificación del expediente médico se conserva para todas las entradas de la base de datos.

Se ve, entonces, que existe una correlación muy estrecha entre los elementos importantes del expediente médico y la base de datos reestructurada que se ha creado. Toda la información necesaria para el analista de investigación se encuentra en el mismo registro. No hay ninguna búsqueda que sea necesaria por el analista de investigación porque todos los datos pertinentes se mantienen en el mismo registro. No hay “búsquedas” que se requieran. Dado que todos los datos pertinentes e importantes se incluyen en una sola fila de los datos reestructurados y no ambiciosos, el procesamiento requerido por los analistas informáticos es sencillo de obtener. Procesar una base de datos analíticamente debiera resultar tan fácil como leer un solo registro y procesarlo.

Toda la información pertinente en una sola palabra

La figura 12 muestra que toda la información pertinente necesaria para el análisis que proviene del expediente médico se encuentra en el propio registro.

Visualización de los datos

Una vez que se crea la base de datos de datos/texto desambiguados a menudo se utiliza como entrada en el software de visualización. A muchas personas les gusta ver visualizaciones de datos en lugar de datos en una base de datos.

La figura 14 muestra el uso del software de visualización/análisis.

Imagen de espejo

Otra perspectiva del registro médico y la base de datos reestructurada es que la base de datos reestructurada es una imagen reflejada del registro médico. La principal diferencia entre las dos formas de los datos es que el registro reestructurado tiene la manera de una base de datos relacional, que puede ser leída y entendida por el equipo.

La figura 15 muestra esta relación espejo.


Bill Inmon es el fundador de Forest Rim Technology ubicada en Castle Rock, Colorado. Forest Rim Technology produce Textual ETL y la base de datos que se puede reestructurar a partir de ella. Con Textual ETL puede convertir los datos orientados a documentos en una base de datos analíticas que pueda ser analizada por el analista informático.