por W H Inmon, Forest Rim Technology

Con el aumento de los costos de la medicina y el advenimiento de una población envejecida, nunca ha habido un mejor momento para una investigación médica precisa y exhaustiva.

 

Durante años, los médicos y hospitales han tratado a los pacientes, mantenido registros sobre el tratamiento, los exámenes y los resultados de la atención brindada. Para un paciente determinado la información ha sido adecuada, pero hay una gran cantidad de información que se puede recopilar cuando esos registros médicos se examinan colectivamente. Mirar muchos registros médicos colectivamente puede generar información sobre patrones relacionados con enfermedades y condiciones que pueden no ser evidentes cuando se miran solo uno o dos registros médicos. Sin embargo, mirar múltiples registros médicos a la vez sobre una base colectiva ha sido un desafío hasta ahora.

Cuando un paciente se somete a la atención médica, hay muchas razones para hacerlo:

  • Exámenes
  • Diagnosis
  • Procedimientos
  • Pruebas
  • Atención de emergencia

Y muchas más razones por las que un paciente necesita atención médica.

Cada vez que el paciente se somete a un episodio de salud importante, se toman registros cuidadosos. La esencia de estos registros es el texto que describe las complejidades del encuentro o episodio de cuidado. A veces, el texto describe el encuentro de forma detallada; a veces el texto es escaso. La cantidad de texto y la naturaleza del idioma depende del médico, el tipo de encuentro y muchos otros factores.

Con el tiempo, estos registros médicos son recopilados por médicos, hospitales y otras agencias. Para un paciente determinado la colección de los registros forma la historia clínica personal del paciente. Hay mucho valor en estos registros para el paciente.

Pero hay un valor aun mayor en estos registros cuando se examinan colectivamente. Cuando una organización puede examinar 10.000, 100.000 e incluso 1.000.000 de registros a la vez, comienzan a surgir patrones relacionados con enfermedades que dicen mucho sobre la enfermedad y la condición humana, no solo información sobre un paciente determinado.

Con el tiempo se recopilan registros médicos, a menudo de diferentes fuentes. Y es costumbre que estos se recojan electrónicamente. La tecnología estándar cuenta con los registros que se recogen electrónicamente almacenados en sistemas convencionales como MicroSoft NT, IBM DB2 o Hadoop, entre otros. Normalmente, el medio de almacenamiento en disco se utiliza para almacenar los datos.

Si bien el almacenamiento electrónico de registros médicos tiene muchas ventajas y usos válidos, hay un inconveniente importante: los registros pueden ser útiles de analizar solo  de un paciente a la vez.

Hay varias razones para esta limitación. La primera es que los registros se almacenan textualmente. La tecnología estándar no maneja bien el texto no estructurado, sí los datos estructurados, los datos numéricos y las transacciones. Cuando se trata de texto, la tecnología estándar es buena almacenando, pero no recuperando y analizando el texto. La falta de estructura del texto derrota muchas de las ventajas de la tecnología estándar.

Una segunda razón por la que la tecnología estándar no se presta al análisis del análisis textual colectivo es que la mayoría de los datos residen en fuentes y tecnologías muy diferentes. Una fuente de registros médicos se encuentra en NT de Microsoft, otra se encuentra en DB2 de IBM, otra está alojada en Hadoop, y así sucesivamente. Estas tecnologías simplemente nunca fueron diseñadas para funcionar a la perfección con otras tecnologías. Por lo tanto, no es de extrañar que tratar de mirar los registros médicos colectivamente sea un verdadero desafío cuando los registros están dispersos en diferentes tecnologías, como suele ocurrir.

Otro desafío importante cuando los registros médicos se examinan colectivamente es que hay una diferencia en la terminología. Los cirujanos ortopédicos llaman a un hueso roto una cosa y los médicos generales llaman a un hueso roto otra cosa. A la vez, la abreviatura “ha” para un cardiólogo significa “ataque al corazón” mientras que la misma abreviatura de un endocrinólogo significa “hepatitis A”. Así que simplemente lanzar un montón de registros médicos juntos no es garantía de que un análisis colectivo produzca algo significativo.

Todos estos problemas con la integración del texto y más deben superarse si un análisis colectivo de los registros médicos es para producir algo útil.

Afortunadamente, existe una solución a la necesidad de examinar los registros médicos colectivamente. Esa solución es la tecnología Textual ETL de Forest Rim Technology.

La figura 6 muestra que Forest Rim Technology lee los registros médicos dondequiera que se encuentren en cualquier tecnología en la que residan. A Forest Rim Technology no le importa si los datos provienen de IBM, Teradata, NT, Oracle o cualquier otra fuente. Siempre y cuando sea texto legible electrónicamente, Forest Rim Technology puede manejarlo.

Después de leer los registros médicos, se resuelven las diferencias terminológicas —sinónimos y homógrafos—. Forest Rim Technology tiene una lógica sofisticada para manejar la integración de diferentes terminologías. Los datos de múltiples registros médicos están integrados en un solo registro. Otras ediciones, como la eliminación de palabras vacías (por ejemplo, “un”, “unos”, “el”, “que””, “a”, “como”, etc.) y sus derivados se llevan a cabo para hacer que el texto quede legible, flexible y listo para el análisis integrado.

Forest Rim Technology crea una base de datos médicos que se integra y proviene de cualquier fuente legible electrónicamente.

Después de que Forest Rim Technology termina la edición y el acondicionamiento de datos, puede pasarlos al motor de informes SeePower, el que recoge los datos seleccionados y produce un tipo especial de visualización —un SOM— o ““mapa autoorganizador”.

Los SOM son un tipo de visualización muy especial. Reflejan toda la masa de datos que se han leído y adecuado. Los SOM son capaces de representar miles de documentos y millones de palabras y frases. Además, el SOM que se produce es accesible dinámicamente.

La idea básica detrás de un SOM es agrupar el texto relacionado y el texto que se agrega.

En la figura 8, el SOM muestra que hay una concentración de información en un solo lugar y un espasmo de información en otro lugar. Además, el SOM muestra que hay un continuo de información de un tipo. Todo el texto que se ha leído (cada palabra y frase) de todos los documentos que se han leído están representados en el SOM.

Por ejemplo, supongamos que los registros médicos eran de mujeres de 20 a 50 años. Habría concentraciones de información de miles de registros médicos sobre el parto, los ciclos mensuales y la menopausia. Habría menos información sobre el tabaquismo, los huesos rotos y la obesidad. Y habría muy poca información sobre enfermedades raras de la sangre, enfermedades óseas raras y otros trastornos particulares.

La información que se incluye regularmente en los muchos registros médicos aparecería agrupada como un “punto oscuro” en el SOM. La información que ocurre de forma muy poco frecuente aparecería como un “punto de luz” en el SOM.

Uno de los aspectos más útiles del SOM es la capacidad de profundizar.

Cuando un analista desglosa, selecciona una palabra o frase y explora la palabra y su relación con otras palabras, además, puede ahondar. El analista puede ver qué texto está estrechamente relacionado con qué otro texto. Todo este análisis se realiza moviendo un cursor a través del SOM.

Por ejemplo, supongamos que el analista encuentra una ocurrencia inesperada de muchos casos de enfisema. El analista puede aislar esos casos y mirarlos de muchas maneras: por geografía, por edad, por género, por peso, por hábitos de fumar, etc. El desglose puede ir a un nivel de detalle tan bajo como se desee.

Además, si se requiere un análisis realmente profundo, el analista puede examinar los documentos de origen de los que proviene la palabra o frase.

En el caso de profundizar en el enfisema, el analista puede ir directamente al expediente médico real.

En una frase, el SOM le da al analista la capacidad de explorar y analizar miles de registros médicos a la vez en un modo visual y natural de exploración. Pero tal vez el aspecto más interesante de un SOM es la capacidad de mostrar correlaciones de texto de miles de registros médicos juntos.

Cuando un SOM muestra una concentración de información en un lugar y una concentración de información en otro lugar, hay una correlación de información. A veces esa correlación de información es débil, a veces es fuerte. En cualquier caso, la correlación aparece visual y claramente como resultado del examen de miles de documentos médicos.

Por ejemplo, tomemos el caso de un analista que ha hecho un estudio de los registros de un tipo particular de cáncer, por ejemplo, el de piel. El analista puede ver inmediatamente los factores correlacionados. El analista puede ver la edad, la exposición a la luz solar, el tipo de piel. Pero también puede ver otros tipos de relaciones que pueden no esperarse, como la ingestión de vitamina C, otros medicamentos, género, ocupación, etc. Todos los factores correlacionados hacen su aparición si alguna vez han sido consignados en un historial médico.

Por supuesto, una vez que un analista ha detectado tal correlación, se puede aislar y examinar más a fondo.

Hay otro elemento que Forest Rim Technology hace que es de valor para el analista de investigación. La salida no tiene que utilizarse visualmente como se describe. Una vez editados y acondicionados los datos de los registros médicos, están disponibles para su posterior análisis utilizando herramientas analíticas convencionales como SAS, Business Objects, Cognos, Tableau, Qlik, etc.

La visualización y el acceso y acondicionamiento de los registros médicos se convierten, entonces, en la clave para examinar y analizar los registros médicos colectivamente.

________________________________________________________________________

Forest Rim Technology se encuentra en Castle Rock, CO. Produce Textual ETL, una tecnología que permite desambiguar el texto no estructurado y colocarlo en una base de datos estándar donde se puede analizar. Forest Rim Technology fue fundada por Bill Inmon. Para obtener más información, consulte www.forestrimtech.com