por W H Inmon, Forest Rim Technology

Hay muchas formas de texto no estructurado. Hay contratos. Hay registros médicos. Hay notas de los médicos. Hay campos de comentarios. Pero tal vez la información no estructurada más común son los correos electrónicos.

Algunas características de los correos electrónicos

Cada una de las diferentes formas de texto tiene sus propias características. Algunas formas de texto son estructuralmente repetitivas. Algunas formas de texto no son repetitivas. Algunas formas de texto utilizan el estilo casual de conversación. Otras formas de texto utilizan un lenguaje muy formal. Algunas formas de texto están en un solo idioma, otras utilizan varios idiomas.

Dado que los correos electrónicos son omnipresentes y que se encuentran en todo el mundo, existen en todos los idiomas que se encuentran en la tierra.

Algunos correos electrónicos contienen una conversación informal. Pero otros correos electrónicos contienen una conversación que es vital para el negocio. Por ejemplo, un correo electrónico puede contener información en el sentido de que un cliente está loco. O que un envío llega tarde o se ha encontrado que está roto. O tal vez un puente ha sido bloqueado o cerrado, impidiendo una entrega rápida. En muchos casos, los correos electrónicos contienen información importante para la ejecución y el funcionamiento del sistema.

Como regla general, los correos electrónicos tienden a ser no repetitivos. Cuando una persona está creando un correo electrónico, no hay nadie sentado en su hombro dictando cómo se debe leer el correo electrónico. Una persona puede escribir un correo electrónico largo o corto. Puede ser formal o casual. Puede usar lenguaje sucio si lo desea. Puede escribir el correo electrónico en inglés, español, ruso o chino.

Debido a la naturaleza de forma libre de los correos electrónicos, no hay ningún patrón estructural que surja de ellos. Los correos electrónicos son simplemente no repetitivos en todo el mundo.

Otra característica es que tienden a contener muchas abreviaturas. Mientras la persona receptora entienda el mensaje, el autor de un correo electrónico es libre de usar tantas abreviaturas como elija usar. El uso de abreviaturas ahorra tiempo en la construcción del correo electrónico.

Por lo tanto, es normal que un correo electrónico contenga mucha información esquemática y de otro modo críptica.

Otra característica de los correos electrónicos es que a menudo tiene sentido agruparlos. Así, es posible capturar la totalidad de una conversación. Al agrupar correos electrónicos, se puede lograr el efecto de escuchar una conversación completa. A menudo, la conversación que se encuentra en un correo electrónico es relevante en el contexto de otros correos electrónicos. Al agrupar los correos electrónicos y secuenciarlos, se puede capturar toda la conversación.

Otra característica de los correos electrónicos es que pueden llegar a ser bastante voluminosos con el tiempo. Hay muchas razones por las que las corporaciones acumulan muchos correos electrónicos. A veces, los correos electrónicos contienen spam. Otras veces los correos electrónicos son “tonterías”. Las tonterías se producen en un correo electrónico cuando hay una conversación diaria sobre temas que no son de negocios. Y en otras ocasiones la gente es simplemente “habladora”. Por estas razones y más, con el tiempo las organizaciones tienden a acumular muchos correos electrónicos. Terabytes y terabytes de correo electrónico.

Hay muchos incentivos para que una organización administre los volúmenes de datos que se encuentran en el almacén de correo electrónico corporativo. Una buena manera de administrar los volúmenes de correo electrónico es que la organización filtre el spam y las tonterías. Al filtrarlas, la corporación se queda con solo los correos electrónicos que son relevantes para el negocio.

Este filtrado se puede realizar mediante el filtro de correo electrónico de Forest Rim Technology

Una vez finalizado el filtrado, el siguiente paso es colocar los correos electrónicos que permanecen en una base de datos relacional estándar. En realidad, los correos electrónicos no se ubican en una base de datos relacional en absoluto. En su lugar, se procesan a través de Textual ETL, como el desarrollado por Forest Rim Technology. Al hacerlo, ocurren muchas cosas buenas:

  • Las palabras y términos necesarios para el procesamiento analítico se identifican y separan del correo electrónico.
  • El volumen de datos se reduce significativamente tomando correos electrónicos y descomponiéndolos en lo esencial.
  • Las diferentes facetas de la manipulación textual son proporcionadas por Textual ETL y así sucesivamente.

TEXTUAL ETL

Son muchas las características de la manipulación textual proporcionada por Textual ETL. Algunas de ellas son:

  • Categorización por divisiones taxonómicas
  • Síntesis ortográfica alternativa
  • Estandarización de fechas
  • Texto a conversión numérica
  • Formato y reconocimiento de variables personalizadas, etc.

Para una larga discusión de las características de Textual ETL, por favor refiérase al libro BUILDING THE UNSTRUCTURED DATA WAREHOUSE, Technics Publication, 2011.

Al pasar correos electrónicos a través de Textual ETL, el texto que se encuentra en los correos electrónicos es capaz de colocarse en una base de datos relacional estándar.

Una explicación de la relación entre la base de datos relacional y el contenido del correo electrónico está en orden aquí. La base de datos relacional que se crea contiene palabras y frases que son útiles para el procesamiento analítico. La base de datos relacional también contiene vínculos al correo electrónico. En cualquier momento durante el procesamiento analítico que se desea volver al correo electrónico real, es muy fácil hacerlo.

Este sencillo vínculo de la base de datos relacional al diseño de correo electrónico permite almacenar cantidades masivas de correos electrónicos fuera de la base de datos relacional analítica, lo que satisface la necesidad de no crear bases de datos relacionales de proporciones monstruosas.

Análisis de correos electrónicos

El análisis de correos electrónicos se puede hacer mediante cualquier herramienta estándar de Business Intelligence. El análisis consta (normalmente) de una serie de instrucciones SQL. El analista puede buscar a través de los correos electrónicos y encontrar cualquier correo electrónico que sea relevante para un problema.

Como ejemplo del análisis que se puede hacer, considere estos casos:

  • Un cliente tiene un problema y amenaza con demandar. El analista puede volver atrás y averiguar si ha habido algún intercambio de correo electrónico entre el cliente y la empresa. El analista puede averiguar si ha habido alguna conversación interna sobre el cliente y cualquier problema que el cliente esté teniendo. El analista puede secuenciar los correos electrónicos en el orden en que aparecieron. En resumen, los correos electrónicos pueden proporcionar una gran cantidad de información sobre el cliente y el problema que el cliente está teniendo o ha tenido.
  • Un envío se ha retrasado y va a llegar tarde. El analista puede averiguar a través de correos electrónicos por qué el envío se ha retrasado, cuánta advertencia se ha dado al cliente, qué departamentos han estado involucrados y qué se ha hecho de forma proactiva.
  • Un producto tiene un defecto y la tienda que lo vende está molesta. Al mirar los correos electrónicos se puede identificar quién sabía acerca de los defectos, qué se estaba tratando de hacer de forma proactiva para abordar los defectos, y así sucesivamente. Incluso la no existencia de correos electrónicos puede alertar a una empresa de que el proceso de inspección no se está realizando correctamente.

En resumen, mediante el uso de correos electrónicos el analista puede encontrar grandes cantidades de información que se relacionan con la resolución de problemas espinosos.

Hay otra manera de ver el análisis de correos electrónicos: contrastar el análisis de correos electrónicos frente al análisis de datos operativos sin procesar. Cuando un analista examina los datos operativos sin procesar, puede discernir lo que ha sucedido. Al hacer análisis de correos electrónicos, el analista puede averiguar por qué sucedió. Y en el análisis final, cuando se dirige un negocio, la visión obtenida al mirar por qué algo ha sucedido es más importante para el negocio que entender lo que ha sucedido.

En resumen

Los correos electrónicos contienen mucha información importante. La visión que se puede obtener mirando los correos electrónicos es necesaria y es diferente de la información que se puede obtener mirando lo que ha sucedido.

Para ser eficaz, el correo electrónico debe filtrarse antes de que se analice debido al spam y las tonterías que normalmente existen en una secuencia de correo electrónico. Tras filtrar el correo electrónico, se procesa a través de Textual ETL. Después se crea una base de datos relacional que se puede utilizar para analizar la secuencia de correo electrónico.

SI DESEA ADMINISTRAR DE FORMA PROACTIVA SU ENTORNO DE CORREO ELECTRÓNICO, COMIENCE CON LA TECNOLOGÍA FOREST RIM.

Forest Rim Technology fue formada por Bill Inmon con el fin de proporcionar tecnología para cerrar la brecha entre los datos estructurados y no estructurados. Se encuentra en Castle Rock, Colorado.