1.1 Clustering en RapidMiner

Operador K-Mean

Para desarrollar el siguiente ejemplo descargaremos el siguiente archivo Puntos.xlsx (este archivo fue obtenido de un curso de postgrado de la Universidad Nacional de la Plata)

Puntos.xlsx

Leemos este archivo, con el operador "Read Excel" y creamos un punto de control

Buscamos y agregamos el operador K-Means, el cual, como se dijo en previamente realiza la agrupación mediante el algoritmo K-Means.

Agregamos el operador "K-Means" y realizamos las conexiones correspondientes. Debemos observar que el operador K-Means tiene dos salidas y que por defecto coloca un K = 5 y una cantidad de corridas igual a 10

Al detenerse en el BreakPoint, podemos observar que el DataSet original tiene 300 registros y 4 atributos

Al ejecutar nuevamente la corrida del modelo observamos que se ha agregado un nuevo atributo cluster que tiene 5 grupos. También se puede distinguir dos pestañas (cada una por cada salida del operador K-Means

Y haciendo clic en la "Tabla de Centroides" podemos observar la distribución de los mismos en cada cluster.

Haciendo clic en la pestaña "Cluster Model" observamos como se distribuyeron los 300 registros del DataSet en los 5 Cluster

Por último podemos observar haciendo un diagrama de Dispersión en Visualizations (sobre Example Set) y colocando en el eje de las X a X1 y en el eje de las Y (value column) a X2.

A simple vista se deduce que podrían llegar a ser 3 cluster en lugar de 5 por como se distribuyen los puntos.

A continuación planteamos el mismo ejercicio pero con un número de cluster o K = 3.

Operador K-Mean K = 3

Procedemos a cambiar K = 3 y realizamos el análisis de los valores obtenidos

Si realizamos la corrida del modelo observamos ahora que las etiquetas generadas en el atributo nuevo "cluster" coinciden con los valores del atributo "Clase"

Aquí se muestran como se distribuyeron los 300 ejemplos en los 3 cluster

Y los valores de la tabla de centroides

Finalmente podemos observar gráficamente mediante un diagrama de dispersión como se distribuyen los puntos en un eje de coordenadas X, Y; de donde podríamos afirmar que K = 3 puede ser un K óptimo. Pero para confirmar la misma debemos aplicar el método del codo o algún otro que nos confirme lo planteado.

Otra circunstancia a tener en cuenta es que en este caso tenemos dos atributos X1 y X2 que se adaptaron a X, Y, pero ¿Qué ocurre

Operador K-Medoids

Este operador realiza la agrupación mediante el algoritmo k-medoids. La agrupación se ocupa de agrupar objetos que son similares entre sí y diferentes a los objetos que pertenecen a otros grupos. La agrupación en clústeres es una técnica para extraer información de datos no etiquetados. La agrupación de k-medoides es un algoritmo de agrupación exclusivo, es decir, cada objeto se asigna precisamente a uno de un conjunto de agrupaciones.

A continuación analizaremos el ejemplo K-Medoids, para ello, debemos ir a:

Operators ==> K-Medoids ==> Help ==> Jump to Tutorial ==> "Clustering of Ripley-Set data set by the K-Medoids operator"

Al hacer esto nos aparecerá el siguiente ejemplo, en donde podemos observar que se ha definido un K=2.

Si realizamos la corrida del modelo observamos que en el DataSet original hay 4 atributos (aunque label para este ejemplo no se utiliza)

Aquí vemos que se han agregado 2 atributos, id y cluster

Aquí vemos como se han distribuido los ejemplos en los cluster.

Y los valores de la tabla de centroides

La tabla de Centroides.

Y finalmente el gráfico de dispersión de los atributos att1 y att2 en los dos cluster definidos.