por W H Inmon, Forest Rim Technology

Los datos estructurados son datos repetitivos que se producen una y otra vez. Las transacciones bancarias, las reservas de aerolíneas, las ventas de SKU minoristas, las llamadas telefónicas son ejemplos clásicos de lo que se conoce como datos estructurados.

 

En la mayoría de los casos, los datos estructurados se crean como resultado de la ejecución de una transacción.

Los datos estructurados encajan perfectamente y de forma ordenada dentro de un sistema de gestión de bases de datos estándar (DBMS por sus siglas en inglés).

Y luego está el texto. El texto se conoce comúnmente como datos no estructurados. Y, antes de la desambiguación textual, el texto no encajaba cómodamente y convenientemente en un sistema de gestión de bases de datos estándar.

Pero, ¿es realmente desestructurado el texto?

¿Qué significa realmente el término “no estructurado”?

En general, el término “no estructurado” se refiere a la falta de estructura. Y si el texto fuera realmente desestructurado no seríamos capaces de entendernos al tener una conversación. Pero nos entendemos cuando hablamos. La gente entiende los libros cuando los leen. Entonces, ¿qué está pasando aquí?

Definitivamente hay estructura detrás del texto. Hay una ortografía, una puntuación y una construcción de sentencia apropiada. Hay un desarrollo adecuado del pensamiento. Pregúntele a cualquier profesor de Castellano y descubrirá cuánta estructura hay detrás del texto. Mucha.

Así que, de hecho, realmente hay estructura detrás del texto. Pero esta es bastante compleja. El idioma se enseña en la escuela desde el primer grado. Los padres comienzan a enseñar el idioma a sus hijos a una edad muy temprana. Se necesita mucho tiempo para que un humano aprenda a hablar correctamente y también aprenda a entender el habla. Y cuanto más profundo se introduce en el lenguaje, más arcano y complejo se vuelve. De hecho, puedes obtener un doctorado en lenguaje y hacer que sea el trabajo de tu vida.

Así que realmente hay una estructura detrás del texto.

Pero, ¿permite la estructura del lenguaje que el texto se considere estructurado a los ojos del computador? La respuesta es no, porque aunque el texto está estructurado, esa estructura es tan vasta, tan compleja, tan arcana que el ordenador no puede entender la estructura del lenguaje. Dicho de forma diferente, el ordenador es capaz de entender solo las estructuras más simples. El lenguaje está más allá de los límites del computador. Por lo tanto, a sus ojos, el texto no está estructurado, aunque realmente hay una estructura subyacente.

Así es que cuando el profesional de la computación habla de procesamiento no estructurado se refiere a algo diferente a la comprensión general de lo que se entiende por no estructurado. Dicho de otra manera, está la comprensión del diccionario de no estructurado y existe la comprensión del profesional de la computación de no estructurado y estos dos entendimientos son muy diferentes.

Para hacer las cosas aun más complejas (¡como si necesitara serlo!), los datos no estructurados en el sentido del computador incluyen mucho más que el texto: datos de imagen, datos de sonido, datos de cinta de registro y datos meteorológicos, por nombrar algunos.

Ahora, ¿por qué la definición computarizada de lo estructurado de lo que no está estructurado marca la diferencia? La diferencia se hace porque el equipo se hizo para manejar datos estructurados y NO datos no estructurados. La computadora espera que los registros estén en pilas ordenadas llamadas registros. Cada registro tiene una clave y otros atributos. Una vez que los datos se organizan en un formato estructurado, la computadora atraviesa los datos, al igual que las balas que vuelan a través de una ametralladora. Pero si hay una bala que está fuera de lugar, la ametralladora se atasca y ya no es un activo militar sino un pasivo militar.

Por lo tanto, la estructura y organización de los datos marca una gran diferencia cuando se trata de un procesamiento eficiente dentro del equipo. Una de las preguntas interesantes es que si el equipo no puede manejar de manera no estructurada los datos, entonces, ¿se puede convertir lo desestructurado en un formato estructurado? La respuesta es sí: hay tecnología que se puede utilizar para convertir los datos textuales en un formato estructurado y mantener el aire no estructurado de los datos. Esa tecnología se conoce como desambiguación textual.

Es el papel de la desambiguación textual ingerir texto sin procesar y no estructurado y transformar las partes importantes del texto no estructurado en un formato estructurado manteniendo la esencia de los datos no estructurados. Es como andar en bicicleta a través de una cuerda floja estirada a través de las Cataratas del Niágara mientras se hace malabarismo con monos que corren de un lado a otro. No es para los débiles de corazón.

Si bien hay muchas facetas de la desambiguación textual, el aspecto más intrigante es el de derivar el contexto del texto mientras se coloca el texto en un formato estructurado.

Si bien la desambiguación textual es interesante, su valor estratégico es permitir que el texto se coloque en una base de datos estándar y se puede utilizar para la toma de decisiones corporativas. Y estratégicamente eso es muy importante.

Si no comprende la importancia estratégica de poder tomar decisiones basadas en texto, piénselo. Se estima que entre el 80 y el 90 % de los datos de la corporación se basan en texto. Pero, ¿qué datos se utilizan como base para tomar decisiones? La mayoría de las decisiones corporativas se toman sobre la base de la lectura y el análisis del 10 o 20 % de los datos estructurados en la corporación. ¿Tiene sentido?

Es como decir que solo los hombres mayores de 65 años que tienen educación universitaria deben tomar todas las decisiones políticas para la población. ¿Qué hay de las mujeres? ¿Qué pasa con las personas menores de 65 años? ¿Qué pasa con las personas que no tienen una educación universitaria?

Nunca defenderíamos un sistema político tan deforme y tan elitista. Pero eso es exactamente lo que hacemos por los datos encontrados en nuestras corporaciones.

Los trabajadores del mundo se unen. Comience a tomar decisiones corporativas y de gestión sobre sus datos no estructurados.


Forest Rim Technology fue formada por Bill Inmon con el fin de proporcionar tecnología para cerrar la brecha entre los datos estructurados y no estructurados. Forest Rim Technology se encuentra en Castle Rock, Colorado.