por W H Inmon, Forest Rim Technology

Entonces, ¿de qué manera el texto es diferente a los datos estructurados? Esta pregunta es como preguntar: ¿por qué no usas serpientes para tirar de un carruaje? Es casi un non sequitur.

Aquí hay MUCHAS, MUCHAS diferencias fundamentales entre el texto y los datos estructurados clásicos. Algunas de las principales diferencias son:

El texto es una estructura independiente. Cuando usted dice una frase a otra persona, la frase debe ser totalmente autoexplicativa. Si no se habla de esa forma no tiene sentido. Sin embargo, en los datos estructurados, los datos forman parte de algo más grande. Por ejemplo, cuando se registra una compra en un minorista, los datos relativos a la compra se registran por completo en el contexto de la compra que se realiza. En su mayor parte, los datos estructurados NO son totalmente autónomos.

Por lo general, es necesario editar el texto. Hay todo tipo de ediciones que son necesarias. Las palabras vacías se pueden eliminar, la ortografía se puede corregir, los formatos de fecha se pueden estandarizar, etc. Es totalmente apropiado editar texto al prepararlo para su inclusión en una base de datos. Sin embargo, no ocurre lo mismo con el texto estructurado. Si un comerciante recibe un pago por USD 549.31, es contrario a la ley que el comerciante redondee el pago en USD 550.00. Los datos estructurados funcionan sobre la base de la precisión, no así los datos textuales.

En el texto, los patrones de texto se vuelven muy importantes. La proximidad de las palabras afecta el significado de las mismas. El contexto de las palabras afecta al significado del texto. El posicionamiento de las palabras dentro del documento afecta al significado de las palabras. Hay todo un arte en la lectura del texto y encontrar e interpretar los patrones de texto que afectan el significado. No hay un equivalente análogo de encontrar patrones en datos estructurados.

El texto puede venir en varios idiomas. Puede estar en inglés, en español, en alemán, francés o mandarín… sin embargo, el significado del texto sigue siendo el mismo, independientemente del idioma en el que se diga. En su mayor parte, los datos estructurados son independientes del lenguaje.

La categorización del texto puede llegar a ser importante. Es a través de la categorización que se realiza gran parte del procesamiento textual. Es el medio por el cual se deriva gran parte del significado. No hay un equivalente análogo de la categorización de datos estructurados.

Tan importante y tan útil como el texto es el contexto. El texto sin contexto es tan inútil como un coche sin ruedas. Un coche sin ruedas puede ser divertido para acampar o incluso para refugiarse de la lluvia, pero sin duda, no va a hacer un viaje en ese coche si no tiene ruedas. Los datos estructurados también necesitan contexto. Y el contexto de los datos estructurados se deriva y se maneja de una manera completamente diferente.

En la mayoría de los casos, el texto no es repetitivo. Considere los correos electrónicos. Una persona puede escribir lo que quiera. Por lo tanto, no se puede predecir qué texto o qué patrón de texto se encontrará en un correo electrónico. En cambio, los datos estructurados son altamente repetitivos. Considere la actividad de un cajero automático. Cada transacción se ve, estructuralmente, como la actividad de cajeros automáticos. La única diferencia entre las actividades de cada cajero son los datos contenidos en el registro.

El texto está sujeto al procesamiento de inferencias. Cuando el médico dice USTED NO TIENE CÁNCER, es un mensaje muy diferente a cuando dice USTED TIENE CÁNCER. Todo el significado de lo que se dice a menudo es revertido por una sola palabra. Ser capaz de reconocer e interpretar estas palabras a través del procesamiento de inferencias es de vital importancia.

Desde el punto de vista del procesamiento hay MUCHAS diferencias significativas entre el texto y los datos estructurados clásicos. Mientras que los datos estructurados son contenido para contener simplemente un valor de datos asociados a un campo, en los datos textuales es necesario tener un campo de datos, el tipo de campo de datos y el contexto del campo de datos. Si hay una sola línea divisoria entre los datos textuales y los datos estructurados, es que no basta con identificar y procesar el texto. El texto DEBE tener contexto para que sea útil dentro de una base de datos.

Estas razones y más explican por qué el manejo de texto dentro de una base de datos es un proceso complicado y es muy diferente del manejo y procesamiento de datos estructurados.

Bill Inmon, el “padre del almacenamiento de datos”, ha escrito 57 libros publicados en nueve idiomas. Bill fue nombrado por ComputerWorld como una de las diez personas más influyentes en la historia de la profesión informática.

TURNING TEXT INTO GOLD, Technics Publications, es un libro de Bill que muestra cómo el texto se puede convertir en valor comercial. Está disponible en Amazon.com.

Forest Rim Technology fue formada por Bill Inmon con el fin de proporcionar tecnología para cerrar la brecha entre los datos estructurados y no estructurados. Se encuentra en Castle Rock, Colorado.