¿Qué es la Minería de Datos o Data Mining?

Minería de datos: Es un proceso  que tiene la finalidad de descubrir nuevas relaciones, patrones y tendencias significativas al analizar grandes cantidades de datos. La minería de datos es parte de un proceso que intenta extraer información relevante y conocimiento a partir de los datos.

Las grandes cantidades de datos que se generan actualmente  y la generalización  de proyectos big data en las grandes empresas así como la evolución tecnológica y su accesibilidad, están transformando y evolucionando el análisis de datos, con nuevas técnicas que conforman la minería de datos o data mining

Las técnicas de minería de datos tienen el objetivo de transformar grandes volúmenes de datos en información relevante y adquisición de conocimiento mediante técnicas de análisis avanzado de datos.

Estas técnicas tienen como objetivo descubrir patrones de comportamiento,  construcción de perfiles, etc… .


Proceso de extracción de conocimiento o KDD

El proceso de extracción del conocimiento o KDD consta de varias fases :

Selección

  • Recopilar e integrar las fuentes de datos existentes.
  • Identificar y seleccionar las variables relevantes en los datos.
  • Aplicar las técnicas de muestreo adecuadas.

Exploración

  • Utilizar las técnicas de análisis exploratorio de datos.
  • Deducir la distribución de los datos, simetría y normalidad.
  • Analizar las correlaciones existentes en la información.

Limpieza

  • Detectar y tratar la lpresencia de valores atípicos (outliers).
  • Imputar la información faltante o valores perdidos.
  • Eliminar datos erróneos e irrelevantes.

Transformación

  • Utilizar técnicas de reducción y aumento de la dimensión.
  • Aplicar técnicas de discretización y numeración.
  • Realizar escalado simple y multidimensional.

Minería de datos

Técnicas predictivas:

Las variables pueden se clasifican en dependientes e independientes, similares a las técnicas del análisis de la dependencia o métodos explicativos del análisis multivariable.

Las técnicas predictivas especifican el modelo para los datos en base a un conocimiento teórico previo. El modelo supuesto para los datos en base a un conocimiento teórico previo. El modelo supuesto para los datos debe contrastarse después del proceso de minería de datos antes de aceptarlo como válido.

  • Regresión y series temporales
  • Análisis discriminante
  • Métodos Bayesianos
  • Algoritmos genéticos
  • Árboles de decisión
  • Redes Neuronales

Técnicas descriptivas

En las técnicas descriptivas no se asigna ningún papel predeterminado a las variables. No se supone la existencia de variables dependientes ni independientes y tampoco se le supone la existencia de un modelo previo para los datos.

Todas las variables tienen inicialmente el mismo estatus, son similares a las técnicas del análisis de la interdependencia o métodos descriptivos del análisis multivariable.

  • Clustering y segmentación
  • Escalonamiento
  • Reglas de asociación y dependencia
  • Análisis exploratorio
  • Reducción de la dimensión

Evaluación e interpretación de los resultados

  • Intervalos de confianza
  • Bootstrap
  • Análisis ROC
  • Evaluación de modelos

Difusión y uso

  • Visualización
  • Simulación

Herramientas de minería de datos

Las herramientas de minería de datos permiten extraer relaciones, patrones, tendencias y regularidades para describir y comprender mejor los datos y para predecir comportamientos futuros.

EIS (Executive Information System).

Sistemas de información y un conjunto de herramientas asociadas que proporciona a los directivos acceso a la información de estado y sus actividades de gestión. Está especializado en analizar el estado diario de la organización (mediante indicadores clave o KPI’s), para informar rápidamente sobre cambios directivos. La información solicitada suele ser en gran medida cuantitativa y representada por medio de  gráficas.

Los sistemas de informes o consultas avanzadas están basados, generalmente, en sistemas relacionales u objeto-relacionales y el resultado se presenta de forma tabular. Generalmente están implementados en bases de datos relacionales.

OLAP

Las herramientas OLAP, o cubos OLAP, funcionan sobre un sistema de información (transaccional o almacén de datos) y permiten realizar agregaciones y combinaciones de los datos de maneras mucho más, con objetivos de análisis más estratégicos. Tienen como finalidad el manejo y la transformación de los datos, y tienen la particularidad que  pueden producir otros datos nuevos como resultado de esa transformación. Una de sus ventajas es que permiten tener una visión diferente de los mismos.

Data Ware House

Un Data Ware house o almacén de datos, es un conjunto de datos históricos, que pueden ser de diferentes fuentes de información, tanto externos como internos y descriptivos y pertenecen a un área de estudio o contexto, que están integrados y organizados de tal forma que permiten aplicar eficientemente herramientas para resumir, describir y analizar los datos con el fin de ayudar en la toma de decisiones estratégicas.

Las fuentes internas y externas de datos están separadas. Gran parte de los datos que se incorporan en un almacén de datos provienen de una base de datos transaccional que es el origen de datos interno y cuya información es fruto de las transacciones derivadas de la actividad diaria, pero también existen otras fuentes externas de información.

ETL

Existe un sistema especializado para realizar la carga y mantenimiento de un almacén de datos, denominado sistema o proceso ETL (Extract, Transform, Load), extraer, transformar y cargar. Este sistema se encarga de la lectura de datos transaccionales, de la incorporación de datos externos, creación de claves, integración de datos, agregaciones,limpieza y mantenimiento, entre otros.

Hay que tener claro que los almacenes de datos no son imprescindibles para extraer conocimiento a través de los datos. Se puede hacer minería sobre un fichero de datos. Pero las ventajas de organizar un almacén de datos para su análisis se amortizan sobradamente a medio y largo plazo cuando tenemos grandes volúmenes de datos, o estos aumentan con el tiempo, o provienen de fuentes heterogéneas o se van a combinar de maneras arbitrarias y no predefinidas.

La minería de datos analiza los datos y el resto de herramientas citadas anteriormente facilitan el acceso a la información para que el análisis sea más efectivo, es decir, son instrumentos de apoyo a la minería de datos.

También te puede interesar: