Herramientas ETL y algunos ejemplos de herramientas ETL, MOLAP, Data warehouse, DataMarts.
Metodología SEMMA
La metodología SEMMA de SAS divide
el proceso de la minería de datos en las 5 fases relativas a las siglas SEMMA, que
son: SAMPLE, EXPLORE, MODIFY, MODEL y ASSES (muestreo o selección, exploración,
modificación, modelización y evaluación o valoración).
La metodología SEMMA la
utilizan las herramientas de minería de datos de SAS Institute y en concreto
SAS enterprise miner que es la herramienta de minería de datos por excelencia
de SAS.
Esta metodología se divide en:
- Sample
- orígenes de datos y muestreos
- Explore
- análisis exploratorio de datos outliers, missing data, imputación.
- Modify
- transformación de datos y reducción de la información
- Modele
- modelado y técnicas predictivas
- Asses
- evaluación y comparación de modelos, ROC
Metodologías CRISP-DM
al igual que SAS, IBM probé
una metodología completa para ordenar las tareas de minería de datos. El
fundamento es similar SAS. CRISP-DM considera el proceso de extracción del
conocimiento a partir de los datos englobados en 6 fases las cuales son:
1.
comprensión del negocio
entendiendo los objetivos y
requerimientos del proyecto data minning problem definition
2.
comprensión de los datos
recogida inicial de datos
identificación de los problemas de calidad
3.
preparación de los datos
tablas registros y selección
de atributos, transformación y limpieza de los datos
4.
modelado
objetivos del negocio y
técnicas de evaluación
5.
desarrollo
desarrollo de los resultados
del modelo, implementación del proceso de minería de datos
la metodología CRISP-DM la utilizan las herramientas de minería de datos de IBM y en concreto IBM SPSDS MODELER que es la herramienta de minería de datos por excelencia de IBM.
Big data y HADOOP
el concepto de big data se
aplica para toda aquella información que no puede ser procesada o analizada
utilizando procesos o herramientas tradicionales hay cuatro características claves
que definen la información relativa al big data
volumen: los
datos relativos al big data se producen en cantidades mucho más grandes que los
datos tradicionales, por ejemplo, un solo motor a reacción puede generar 10
terabytes de datos en 30 minutos. Con más de 2500 vuelos de aerolíneas por día
coma el volumen diario de sólo esta única fuente de datos se ejecuta en
petabytes. Los medidores inteligentes y equipos industriales pesados como las
refinerías de petróleo y plataformas de perforación generan volúmenes de datos
similares lo que agrava el problema.
velocidad: los
flujos de datos de medios sociales, aunque no es tan masivo como los datos
generados por máquinas producen una gran afluencia de opiniones y valiosas
relaciones para la gestión de clientes. Incluso a 140 caracteres por tweet, la
alta velocidad o frecuencia de los datos de Twitter proporciona grandes
volúmenes de información (más de 8 terabytes por día).
variedad: los
formatos de datos tradicionales tienden a ser relativamente bien definidos por
un esquema de datos. En contraste, los formatos de datos no tradicionales
exhiben un ritmo vertiginoso del cambio. A medida que se añaden nuevos
servicios nuevos sensores desplegados, o nuevas campañas de marketing, se
necesitan nuevos tipos de datos para capturar la información resultante.
Valor: el valor económico de los diferentes datos varía significativamente. Por lo general hay buena información embebida en un gran conjunto más amplio de datos no tradicionales: el desafío esencial es identificar la información valiosa, transformarla y extraer los datos para su análisis. A partir de los datos convenientemente extraídos y transformados se analiza el conocimiento contenido en los mismos
HADOOP
la plataforma de código
abierto hadoop ostenta el liderazgo en la actualidad como herramienta para
analizar grandes cantidades de datos.
Hadoop está inspirado en el
proyecto de Google file Systems (GFS) y en el paradigma de programación MAPReduce,
el cual consiste en dividir en 2 tareas mapper – reducer la manipulación de los
datos distribuidos a nodos de un clúster logrando un alto paralelismo en el
procesamiento. Hadoop Está compuesto de 3 piezas: Hadoop distributed file Systems
(HDFS). Hadoop MapReduce y Hadoop common.
HDFS
el HDFS hoy es quizás el
componente principal de Hadoop, ya que permite crear sistemas de ficheros
empleando servidores commodity ofreciendo redundancia, capacidad y rendimiento
(sólo para ficheros muy grandes). y lo mejor de todo es que estos servidores
commodity son los que hacen la computación permitiendo al paradigma de “llevar
los datos a la computación,” uno de los factores principales del rendimiento de
Hadoop. los datos en el clúster de Hadoop son divididos en pequeñas piezas
llamadas bloques y distribuidas a través del clúster. De esta manera, las funciones
MAP y Reduce pueden ser ejecutadas en pequeños subconjuntos y esto provee de
escalabilidad necesario para el procesamiento de grandes volúmenes
MAP/Reduce
es un distribuidor de tareas
que encaja perfectamente con HDFS y que permite de forma bastante sencilla el
repartir trozos de tareas entre el clúster con una curva de aprendizaje
relativamente sencilla (si lo que se va a analizar no son ficheros de texto
cuesta más coma pero es posible trabajar con vídeo o imágenes).
MapReduce es el núcleo de
Hadoop. el primer proceso es MAP, el cual toma un conjunto de datos y lo
convierte en otro conjunto coma donde los elementos individuales son separados
en tuplas (pares de clave/valor). El proceso reduce obtiene la salida de MAP como
datos de entrada y combinan las tuplas en un conjunto más pequeño de las
mismas. Una fase intermedia es la denominada shuffle la cual obtiene las tuplas
del proceso MAP y determina que nodo procesará estos datos dirigiendo la salida
a una tarea reduce en específico.
Hadoop common components
son un conjunto de librerías
que soportan varios proyectos de hadoop. Adicionalmente, hoy se ha creado un
verdadero ecosistema encima de hadoop con herramientas que permiten al
desarrollador trabajar sin tener que profundizar en lo complicado de hadoop.
las más importantes son: HIVE (data
warehousing), Hbase (base de datos no SQL), pig (maneja cualquier tipo de dato),
mahout (machine learning / data mining), avro (provee servicios de
serialización), cassandra (base de datos no relacional distribuida) chukwa (colección
y análisis a gran escala de log), flume (dirige los datos de una fuente hacia
el ambiente hadoop) jackl (lenguaje de consulta para procesar grandes volúmenes
de datos), lucenne (búsquedas de textos), Oozie (simplifica flujos de trabajo) y
zoo keeper (se realiza y sincroniza procesos a través de un clúster)
Herramientas importantes
Oracle
Oracle big data appliance
ahora con big data connectors
Oracle loader for hadoop
Microsoft
·
Windows Azure
·
HDInsight
·
Polybase
· SQL server
SAS
·
SAS base y SAS enterprise guide
·
SAS enterprise miner
·
SAS visual analytics y statistics
IBM
·
plataforma IBM infosphere
·
BigInsight
·
IBM power Systems
· IBM storage for big data and analytics
Bibliografía
Pérez, C. (2015). Big data
analytics con herramientas de SAS, IBM, Oracle y Microsoft: César Pérez.
Garceta.
Comentarios
Publicar un comentario