Proceso KDD
¿Qué es el proceso de KDD (Minería de datos)?
El KDD
es un proceso centrado en el usuario, que tiene la propiedad de ser altamente interactivo,
y que debe ser guiado por las decisiones que toma el usuario, o también por un
agente inteligente. La naturaleza centrada en el usuario del proceso KDD posee
varias cuestiones actualmente en investigación. Una de ella es, como asistir al
usuario en la correcta selección de herramientas y técnicas apropiadas, para
lograr los objetivos del usuario.
¿Cuáles
son las etapas en que se divide el proceso?
Es una
metodología propuesta por Fayyad [3] en 1996, propone 5 fases: Selección,
preprocesamiento, transformación, minería de datos y evaluación e implantación.
Es un proceso iterativo e interactivo.
Selección
En la
etapa de selección, una vez identificado el conocimiento relevante y
prioritario
y
definidas las metas del proceso kdd, desde el punto de vista del usuario final,
se
crea
un conjunto de datos objetivo, seleccionando todo el conjunto de datos o una
muestra
representativa de este, sobre el cual se realiza el proceso de descubrimiento.
La
selección de los datos varía de acuerdo con los objetivos del negocio.
Preprocesamiento
En la
etapa de preprocesamiento/limpieza (data cleaning) se analiza la calidad de
los
datos, se aplican operaciones básicas como la remoción de datos ruidosos, se
seleccionan
estrategias para el manejo de datos desconocidos (missing y empty),
datos
nulos, datos duplicados y técnicas estadísticas para su reemplazo. En esta
etapa,
es de suma importancia la interacción con el usuario o analista.
Transformación
En la
etapa de transformación/reducción de datos, se buscan características útiles
para
representar los datos dependiendo de la meta del proceso. Se utilizan métodos
de
reducción de dimensiones o de transformación para disminuir el número efectivo
de variables bajo consideración o para encontrar representaciones invariantes
de los
datos
Minería
de datos
El
objetivo de la etapa minería de datos es la búsqueda y descubrimiento de
patrones insospechados y de interés, aplicando tareas de descubrimiento como
clasificación
Evaluación
e implantación
En la
etapa de interpretación/evaluación, se interpretan los patrones descubiertos
y
posiblemente se retorna a las anteriores etapas para posteriores iteraciones.
Esta
etapa
puede incluir la visualización de los patrones extraídos, la remoción de los
patrones
redundantes o irrelevantes y la traducción de los patrones útiles en términos que
sean entendibles para el usuario. Por otra parte, se consolida el conocimiento descubierto
para incorporarlo en otro sistema para posteriores acciones o, simplemente,
para documentarlo y reportarlo a las partes interesadas; también para verificar
y resolver conflictos potenciales con el conocimiento previamente descubierto.
Grafico mostrando las etapas de la metodología KDD
Bibliografía
Timarán-Pereira,
S. R., Hernández-Arteaga, I., Caicedo-Zambrano, S. J., Hidalgo-Troya, A. y
AlvaradoPérez, J. C. (2016). El proceso de descubrimiento de conocimiento en
bases de datos. En Descubrimiento de patrones de desempeño académico con
árboles de decisión en las competencias genéricas de la formación profesional
(pp. 63-86). Bogotá: Ediciones Universidad Cooperativa de Colombia. doi: http://dx.doi.org/10.16925/9789587600490
From
Data Mining to Knowledge Discovery in Databases, Usama Fayyad, Gregory
Piatetsky-Shapiro, From Data Mining to Knowledge Discovery in Databasesand
Padhraic Smyth, American Association for Artificial Intelligence, 1996

Comentarios
Publicar un comentario