top of page

4 KDD (Knowledge Discovery in Databases)

kdd.PNG

Es el proceso no trivial de identificar patrones válidos, novedosos, potencialmente útiles y, en última instancia, comprensibles a partir de datos y remarquemos estos conceptos porque son en definitiva a lo que apuntamos con Minería de Datos:

Válido: tener un cierto grado de validez.
Novedoso: debe aportar información nueva que se desconocía.
Potencialmente útil: debe brindar algún beneficio.
Comprensible: para los usuarios que hagan uso de ella.

En el gráfico de la izquierda se muestran las fases del proceso de descubrimiento de conocimiento en base de datos, que la podríamos resumir tal como afirma Timarán Pereira et al. (2014) en: 

1. Selección
2. Preprocesamiento / Limpieza
3. Transformación / Reducción
4. Minería de datos
5. Interpretación / Evaluación

Todas estas fases las estudiaremos en detalle, pero es muy importante que tengamos en cuenta en donde estamos posicionados. Podemos aplicar las mejores técnicas/herramientas/lenguajes pero si no hicimos una correcta Selección o Preprocesamiento / Limpieza o Transformación / Reducción, los resultados que obtendremos con dichas técnicas/herramientas/lenguajes será incorrecto.

Hay que respetar los pasos que se plantean en este proceso si deseamos obtener resultados correctos y no sesgados.

kdd3.png

En el siguiente gráfico puede observarse, en donde tenemos que dedicar la mayor parte del esfuerzo. No es en la aplicación de las técnicas de Minería de Datos (aunque en esta página estudiaremos las mismas), sino en el entendimiento del Dominio del problema o establecer el objetivo del modelo a desarrollar y principalmente en la Preparación de los Datos. Muchas veces no suele reconocerse lo crucial y lo crítico de esta fase, pero es uno de los puntos claves del problema a tratar y que debe ser abordado dándole el lugar y la importancia que se merece.

bottom of page