Es imposible concebir el mundo moderno sin la minería de datos, una disciplina que abarca todo tipo de entidades e industrias, desde organismos estatales hasta laboratorios, pero ¿en qué consiste exactamente?
El término minería de datos viene desde 1995 pero sus orígenes se remontan años antes y se entrelazan con un proceso llamado «descubrimiento de conocimientos en bases de datos» o KDD por sus siglas en inglés.
Así el KDD y el data mining suelen usarse de forma indiscriminada, pero en esencia son el conjunto de metodologías usadas para el procesamiento y clasificación de grandes conjuntos de datos para identificar patrones, y así, ayudar a resolver problemas empresariales.
Otros nombres que se relacionan con el Data Mining son: Data/pattern analysis; Data archaeology; Data dredging e Information harvesting, entre otros. Por supuesto, todos con algunas diferencias entre sí.
Así, y gracias a la importancia cada vez mayor que se está dando a la información, el mercado global de herramientas para la minería de datos ha crecido paulatinamente de “apenas” 519 mil millones de dólares, en 2017, a más de mil millones de dólares proyectados para 2023.
¿Y cómo funciona?
La minería de datos se basa en tres grandes disciplinas científicas: la inteligencia artificial, la estadística y el aprendizaje automático (machine learning). Así, y mediante la cooperación entre estas tecnologías, se generan predicciones.
Pero su uso es un poco más complicado, requiere planeación y compromiso de las empresas. Estrictamente hablando, el proceso de la minería suele dividirse en cuatro grandes pasos como son:
- Establecimiento de objetivos
En esta fase los científicos de datos y los líderes de la organización tienen que trabajar conjuntamente para definir el problema de negocio. Al mismo tiempo, los analistas deben investigar y aprender el contexto empresarial de sus clientes (competencia, fortalezas, etc).
- Preparación de los datos
A partir de los objetivos establecidos, los expertos deben identificar qué conjunto de datos ayudarán a responder a estas inquietudes. Una vez recogidos los datos pertinentes, se limpiarán, eliminando cualquier ruido, como duplicados, valores perdidos y valores atípicos, entre otros.
- Construcción de modelos y extracción de patrones:
Dependiendo del tipo de análisis empleado: reglas de asociación; redes neuronales; árboles de decisiones o el algoritmo K- de vecino más cercano, los científicos de datos pueden investigar cualquier relación de datos interesantes, como patrones secuenciales, correlaciones o desviaciones de los datos, entre otras posibilidades.
- Evaluación de los resultados
Una vez se procesan y se extraen los resultados de los modelos, estos deben ser examinados por los científicos de datos para determinar su utilidad y, de pasar los requisitos de calidad necesarios, serán comunicados, en forma clara, a los tomadores de decisiones.