Búsquedas en el diario

Proporcionado por
       
 
Martes, 11 de marzo de 2008
La Jornada de Oriente - Puebla - Suplementos
 
 
@rroba
2008, año de la computación.
50 años en México
 

Buscando una aguja de conocimiento en un pajar de datos

Eduardo Morales

 

La cantidad de datos que se genera y almacena en la actualidad ha crecido de forma desmedida. Esto se debe, en parte, a los avances en el manejo eficiente de grandes cantidades de datos y al abaratamiento e incremento de las capacidades de los dispositivos para almacenar información. Como ejemplo tenemos los actuales dispositivos de bolsillo con los que podemos almacenar toda  nuestra preciada colección de discos compactos, acceder a ellos rápidamente, y todavía nos sobra espacio para guardar fotos. El incremento de datos se debe a su vez a la creciente automatización de todo tipo de procesos. Prácticamente cualquier actividad que realizamos en la actualidad queda registrada en una base de datos. Por ejemplo:  llamadas telefónicas, compras de todo tipo, información de clientes y proveedores, consumos de agua y luz, información de sueldos y de empleados, pago de impuestos, seguros médicos, y hasta este artículo, son actualmente almacenados en una o más computadoras. Finalmente, cabe destacar también la facilidad para crear y “subir” información de todo tipo a Internet, lo que la ha convertido en el medio preferido para buscar información, entre otras cosas, porque lo más probable es que ¡ahí sí la encontremos!

Todos estos factores han contribuido a que se estén generando datos a mucha mayor velocidad de la necesaria para analizarlos. El análisis de datos es muy importante porque permite detectar tendencias o encontrar conocimiento útil, como las tendencias en las acciones de la bolsa o la identificación de clientes propensos a responder a una campaña publicitaria, entre otros. Con los volúmenes de información actuales, los expertos en análisis y las técnicas tradicionales para analizar información han sido completamente rebasados. Es por esto que los investigadores en computación han estado desarrollando durante los últimos años, técnicas modernas de análisis de datos de todo tipo, como números, texto, imágenes, música y hasta video, para extraer conocimiento útil, siguiendo un proceso que se conoce como minería de datos. Más formalmente, la minería de datos se define como el proceso para identificar patrones válidos, novedosos, potencialmente útiles y deseablemente entendibles, a partir de datos.

Estas técnicas están siendo utilizadas actualmente por profesionistas de todo tipo. Los biólogos las usan para explicar los procesos que dan origen a la vida a partir de la información sobre genética que se está generando en todo el mundo. Los bancos analizan diariamente información de transacciones para detectar fraudes o tendencias en el mercado bursátil. Compañías manufactureras estudian los datos de sus procesos para detectar los factores que influyen en la calidad de sus productos. Los médicos examinan información de pacientes y medicamentos para mejorar el diagnóstico y tratamiento de enfermedades. Con la gran diversidad y cantidad de datos disponibles, la lista de aplicaciones es interminable.

Para extraer conocimiento útil de los datos, existen diferentes etapas que normalmente se tienen que seguir. Éstas incluyen:

1. Análisis inicial de los datos para ver cuánta información se tiene, de qué tipo es, si tiene ruido y cuánto, si hace falta información relevante, si hay que depurar los datos, etc.

2. Selección de los datos a utilizar para el análisis, ya que no necesariamente nos interesa analizarlos todos. Es posible que sólo querramos datos de personas que sufren de algún tipo de enfermedad, datos de un sólo producto o datos de una sucursal, etc.

3. Decisión sobre qué se quiere obtener con los datos. Dentro de las posibles tareas a realizar, podemos querer construir automáticamente a partir de los datos, un modelo que nos sirva para clasificar objetos. Por ejemplo, construir un modelo con datos de pacientes para predecir la enfermedad más probable en nuevos pacientes. Se pueden generar modelos que predigan el valor de una variable continua, como el precio de cotización de un acción en la bolsa o la temperatura de salida de un proceso industrial. Otra posible tarea es formar grupos con datos que se parezcan entre sí para su posterior análisis. Con esto podemos agrupar clientes con comportamientos parecidos para mejorar el impacto en campañas de mercadotecnia. A partir de los datos se pueden también establecer modelos de dependencias entre variables. Por ejemplo, saber en qué medida las características de un conductor están relacionadas con las características de posibles accidentes, o qué tan probable es que si un cliente compra mantequilla y pan, también compre mermelada, y con base en esto hacer la disposición de los productos en una tienda.

4. Análisis y validación de los patrones encontradas por una o más de las tareas mencionadas. Se busca que lo encontrado por estas técnicas sea útil para las metas del usuario, válido en cuanto a que podamos confiar en los resultados, novedoso y entendible. Ahora bien, no siempre se encuentran patrones que aportan información útil al usuario. El “descubrir” que las mujeres son las que se embarazan o que las personas votan a partir de los 18 años, aunque sean patrones encontrados automáticamente por un programa de computadora, no aportan conocimiento nuevo.

5. Incorporar el conocimiento encontrado dentro de un proceso. Por ejemplo, una vez que caracterizamos ciertas fallas de un proceso industrial, podemos alertar al operador cada vez se presenten durante el proceso las condiciones identificadas para esas fallas.

Normalmente, el proceso de analizar datos y encontrar conocimiento útil no es una tarea sencilla y requiere tanto de expertos del dominio, como de expertos en las técnicas de minería de datos. Este es un tema actual de investigación en computación que se está desarrollando en los principales centros y universidades del mundo y que además tiene importantes implicaciones tanto científicas como comerciales. En esta llamada era del conocimiento en la que vivimos y donde existe una alta automatización, nos encontramos ahogados en información de todo tipo pero sedientos de conocimiento. Los desarrollos científicos en computación están ayudando a saciar nuestra sed.

 
Copyright 1999-2008 Sierra Nevada Comunicaciones All rights reserved
Bajo licencia de Demos Desarrollo de Medios SA de CV