Herramientas ETL y algunos ejemplos de herramientas ETL, MOLAP, Data warehouse, DataMarts.

Metodología SEMMA

La metodología SEMMA de SAS divide el proceso de la minería de datos en las 5 fases relativas a las siglas SEMMA, que son: SAMPLE, EXPLORE, MODIFY, MODEL y ASSES (muestreo o selección, exploración, modificación, modelización y evaluación o valoración).

La metodología SEMMA la utilizan las herramientas de minería de datos de SAS Institute y en concreto SAS enterprise miner que es la herramienta de minería de datos por excelencia de SAS.

Esta metodología se divide en:

  •  Sample
  • orígenes de datos y muestreos
  •  Explore
  • análisis exploratorio de datos outliers, missing data, imputación.
  • Modify
  • transformación de datos y reducción de la información
  • Modele
  • modelado y técnicas predictivas
  • Asses
  • evaluación y comparación de modelos, ROC

Metodologías CRISP-DM

al igual que SAS, IBM probé una metodología completa para ordenar las tareas de minería de datos. El fundamento es similar SAS. CRISP-DM considera el proceso de extracción del conocimiento a partir de los datos englobados en 6 fases las cuales son:

1.    comprensión del negocio

entendiendo los objetivos y requerimientos del proyecto data minning problem definition

2.    comprensión de los datos

recogida inicial de datos identificación de los problemas de calidad

3.    preparación de los datos

tablas registros y selección de atributos, transformación y limpieza de los datos

4.    modelado

objetivos del negocio y técnicas de evaluación

5.    desarrollo

desarrollo de los resultados del modelo, implementación del proceso de minería de datos

la metodología CRISP-DM la utilizan las herramientas de minería de datos de IBM y en concreto IBM SPSDS MODELER que es la herramienta de minería de datos por excelencia de IBM. 

Big data y HADOOP

el concepto de big data se aplica para toda aquella información que no puede ser procesada o analizada utilizando procesos o herramientas tradicionales hay cuatro características claves que definen la información relativa al big data

volumen: los datos relativos al big data se producen en cantidades mucho más grandes que los datos tradicionales, por ejemplo, un solo motor a reacción puede generar 10 terabytes de datos en 30 minutos. Con más de 2500 vuelos de aerolíneas por día coma el volumen diario de sólo esta única fuente de datos se ejecuta en petabytes. Los medidores inteligentes y equipos industriales pesados como las refinerías de petróleo y plataformas de perforación generan volúmenes de datos similares lo que agrava el problema.

velocidad: los flujos de datos de medios sociales, aunque no es tan masivo como los datos generados por máquinas producen una gran afluencia de opiniones y valiosas relaciones para la gestión de clientes. Incluso a 140 caracteres por tweet, la alta velocidad o frecuencia de los datos de Twitter proporciona grandes volúmenes de información (más de 8 terabytes por día).

variedad: los formatos de datos tradicionales tienden a ser relativamente bien definidos por un esquema de datos. En contraste, los formatos de datos no tradicionales exhiben un ritmo vertiginoso del cambio. A medida que se añaden nuevos servicios nuevos sensores desplegados, o nuevas campañas de marketing, se necesitan nuevos tipos de datos para capturar la información resultante.

Valor: el valor económico de los diferentes datos varía significativamente. Por lo general hay buena información embebida en un gran conjunto más amplio de datos no tradicionales: el desafío esencial es identificar la información valiosa, transformarla y extraer los datos para su análisis. A partir de los datos convenientemente extraídos y transformados se analiza el conocimiento contenido en los mismos

HADOOP

la plataforma de código abierto hadoop ostenta el liderazgo en la actualidad como herramienta para analizar grandes cantidades de datos.

Hadoop está inspirado en el proyecto de Google file Systems (GFS) y en el paradigma de programación MAPReduce, el cual consiste en dividir en 2 tareas mapper – reducer la manipulación de los datos distribuidos a nodos de un clúster logrando un alto paralelismo en el procesamiento. Hadoop Está compuesto de 3 piezas: Hadoop distributed file Systems (HDFS). Hadoop MapReduce y Hadoop common.

HDFS

el HDFS hoy es quizás el componente principal de Hadoop, ya que permite crear sistemas de ficheros empleando servidores commodity ofreciendo redundancia, capacidad y rendimiento (sólo para ficheros muy grandes). y lo mejor de todo es que estos servidores commodity son los que hacen la computación permitiendo al paradigma de “llevar los datos a la computación,” uno de los factores principales del rendimiento de Hadoop. los datos en el clúster de Hadoop son divididos en pequeñas piezas llamadas bloques y distribuidas a través del clúster. De esta manera, las funciones MAP y Reduce pueden ser ejecutadas en pequeños subconjuntos y esto provee de escalabilidad necesario para el procesamiento de grandes volúmenes

MAP/Reduce

es un distribuidor de tareas que encaja perfectamente con HDFS y que permite de forma bastante sencilla el repartir trozos de tareas entre el clúster con una curva de aprendizaje relativamente sencilla (si lo que se va a analizar no son ficheros de texto cuesta más coma pero es posible trabajar con vídeo o imágenes).

MapReduce es el núcleo de Hadoop. el primer proceso es MAP, el cual toma un conjunto de datos y lo convierte en otro conjunto coma donde los elementos individuales son separados en tuplas (pares de clave/valor). El proceso reduce obtiene la salida de MAP como datos de entrada y combinan las tuplas en un conjunto más pequeño de las mismas. Una fase intermedia es la denominada shuffle la cual obtiene las tuplas del proceso MAP y determina que nodo procesará estos datos dirigiendo la salida a una tarea reduce en específico.

Hadoop common components

son un conjunto de librerías que soportan varios proyectos de hadoop. Adicionalmente, hoy se ha creado un verdadero ecosistema encima de hadoop con herramientas que permiten al desarrollador trabajar sin tener que profundizar en lo complicado de hadoop. las más importantes son:  HIVE (data warehousing), Hbase (base de datos no SQL), pig (maneja cualquier tipo de dato), mahout (machine learning / data mining), avro (provee servicios de serialización), cassandra (base de datos no relacional distribuida) chukwa (colección y análisis a gran escala de log), flume (dirige los datos de una fuente hacia el ambiente hadoop) jackl (lenguaje de consulta para procesar grandes volúmenes de datos), lucenne (búsquedas de textos), Oozie (simplifica flujos de trabajo) y zoo keeper (se realiza y sincroniza procesos a través de un clúster)

Herramientas importantes

Oracle

Oracle big data appliance

ahora con big data connectors

Oracle loader for hadoop

Microsoft

·         Windows Azure

·         HDInsight

·         Polybase

·         SQL server

SAS

·         SAS base y SAS enterprise guide

·         SAS enterprise miner

·         SAS visual analytics y statistics

IBM

·         plataforma IBM infosphere

·         BigInsight

·         IBM power Systems

·         IBM storage for big data and analytics

Bibliografía

Pérez, C. (2015). Big data analytics con herramientas de SAS, IBM, Oracle y Microsoft: César Pérez. Garceta.

Comentarios

Entradas más populares de este blog

Vista minable

Proceso KDD