Proceso KDD

¿Qué es el proceso de KDD (Minería de datos)?

El KDD es un proceso centrado en el usuario, que tiene la propiedad de ser altamente interactivo, y que debe ser guiado por las decisiones que toma el usuario, o también por un agente inteligente. La naturaleza centrada en el usuario del proceso KDD posee varias cuestiones actualmente en investigación. Una de ella es, como asistir al usuario en la correcta selección de herramientas y técnicas apropiadas, para lograr los objetivos del usuario.

¿Cuáles son las etapas en que se divide el proceso?

Es una metodología propuesta por Fayyad [3] en 1996, propone 5 fases: Selección, preprocesamiento, transformación, minería de datos y evaluación e implantación. Es un proceso iterativo e interactivo.

Selección

En la etapa de selección, una vez identificado el conocimiento relevante y prioritario

y definidas las metas del proceso kdd, desde el punto de vista del usuario final, se

crea un conjunto de datos objetivo, seleccionando todo el conjunto de datos o una

muestra representativa de este, sobre el cual se realiza el proceso de descubrimiento.

La selección de los datos varía de acuerdo con los objetivos del negocio.

Preprocesamiento

En la etapa de preprocesamiento/limpieza (data cleaning) se analiza la calidad de

los datos, se aplican operaciones básicas como la remoción de datos ruidosos, se

seleccionan estrategias para el manejo de datos desconocidos (missing y empty),

datos nulos, datos duplicados y técnicas estadísticas para su reemplazo. En esta

etapa, es de suma importancia la interacción con el usuario o analista.

 

Transformación

En la etapa de transformación/reducción de datos, se buscan características útiles

para representar los datos dependiendo de la meta del proceso. Se utilizan métodos

de reducción de dimensiones o de transformación para disminuir el número efectivo de variables bajo consideración o para encontrar representaciones invariantes

de los datos

Minería de datos

El objetivo de la etapa minería de datos es la búsqueda y descubrimiento de patrones insospechados y de interés, aplicando tareas de descubrimiento como clasificación

Evaluación e implantación

En la etapa de interpretación/evaluación, se interpretan los patrones descubiertos

y posiblemente se retorna a las anteriores etapas para posteriores iteraciones. Esta

etapa puede incluir la visualización de los patrones extraídos, la remoción de los

patrones redundantes o irrelevantes y la traducción de los patrones útiles en términos que sean entendibles para el usuario. Por otra parte, se consolida el conocimiento descubierto para incorporarlo en otro sistema para posteriores acciones o, simplemente, para documentarlo y reportarlo a las partes interesadas; también para verificar y resolver conflictos potenciales con el conocimiento previamente descubierto.

Grafico mostrando las etapas de la metodología KDD

Bibliografía

Timarán-Pereira, S. R., Hernández-Arteaga, I., Caicedo-Zambrano, S. J., Hidalgo-Troya, A. y AlvaradoPérez, J. C. (2016). El proceso de descubrimiento de conocimiento en bases de datos. En Descubrimiento de patrones de desempeño académico con árboles de decisión en las competencias genéricas de la formación profesional (pp. 63-86). Bogotá: Ediciones Universidad Cooperativa de Colombia. doi: http://dx.doi.org/10.16925/9789587600490

From Data Mining to Knowledge Discovery in Databases, Usama Fayyad, Gregory Piatetsky-Shapiro, From Data Mining to Knowledge Discovery in Databasesand Padhraic Smyth, American Association for Artificial Intelligence, 1996

Comentarios

Entradas más populares de este blog

Vista minable