top of page

1.1 Clustering en RapidMiner

Operador K-Mean

rapidminer.png

Para desarrollar el siguiente ejemplo descargaremos el siguiente archivo Puntos.xlsx (este archivo fue obtenido de un curso de postgrado de la Universidad Nacional de la Plata)

flecha.png

Leemos este archivo, con el operador "Read Excel" y creamos un punto de control

flechaabajo.png
kmeans4.PNG
flechaabajo.png

Buscamos y agregamos el operador K-Means, el cual, como se dijo en previamente realiza la agrupación mediante el algoritmo K-Means.

kmeans5.PNG
flechaabajo.png

Agregamos el operador "K-Means" y realizamos las conexiones correspondientes. Debemos observar que el operador K-Means tiene dos salidas y que por defecto coloca un K = 5 y una cantidad de corridas igual a 10

kmeans6.PNG
flechaabajo.png

Al detenerse en el BreakPoint, podemos observar que el DataSet original tiene 300 registros y 4 atributos

Al ejecutar nuevamente la corrida del modelo observamos que se ha agregado un nuevo atributo cluster que tiene 5 grupos. También se puede distinguir dos pestañas (cada una por cada salida del operador K-Means

kmeans7.PNG
flecha.png
kmeans8.PNG
flechaabajo.png

Y haciendo clic en la "Tabla de Centroides" podemos observar la distribución de los mismos en cada cluster.

Haciendo clic en la pestaña "Cluster Model" observamos como se distribuyeron los 300 registros del DataSet en los 5 Cluster 

kmeans9.PNG
flecha.png
kmeans10.PNG

Por último podemos observar haciendo un diagrama de Dispersión en Visualizations (sobre Example Set) y colocando en el eje de las X a X1 y en el eje de las Y (value column) a X2.

A simple vista se deduce que podrían llegar a ser 3 cluster en lugar de 5 por como se distribuyen los puntos.

A continuación planteamos el mismo ejercicio pero con un número de cluster o K = 3.

kmeans11.PNG
flechaabajo.png

Operador K-Mean K = 3

Procedemos a cambiar K = 3 y realizamos el análisis de los valores obtenidos

kmeans16.PNG
flechaabajo.png
kmeans12.PNG

Si realizamos la corrida del modelo observamos ahora que las etiquetas generadas en el atributo nuevo "cluster" coinciden con los valores del atributo "Clase"

kmeans14.PNG
kmeans17.PNG

Aquí se muestran como se distribuyeron los 300 ejemplos en los 3 cluster

flechaabajo.png
flecha.png

Y los valores de la tabla de centroides

flechaabajo.png

Finalmente podemos observar gráficamente mediante un diagrama de dispersión como se distribuyen los puntos en un eje de coordenadas X, Y; de donde podríamos afirmar que K = 3 puede ser un K óptimo. Pero para confirmar la misma debemos aplicar el método del codo o algún otro que nos confirme lo planteado.

Otra circunstancia a tener en cuenta es que en este caso tenemos dos atributos X1 y X2 que se adaptaron a X, Y, pero ¿Qué ocurre

kmeans13.PNG

Operador K-Medoids

Este operador realiza la agrupación mediante el algoritmo k-medoids. La agrupación se ocupa de agrupar objetos que son similares entre sí y diferentes a los objetos que pertenecen a otros grupos. La agrupación en clústeres es una técnica para extraer información de datos no etiquetados. La agrupación de k-medoides es un algoritmo de agrupación exclusivo, es decir, cada objeto se asigna precisamente a uno de un conjunto de agrupaciones.

A continuación analizaremos el ejemplo K-Medoids, para ello, debemos ir a:

Operators ==> K-Medoids ==> Help ==> Jump to Tutorial ==> "Clustering of Ripley-Set data set by the K-Medoids operator"

Al hacer esto nos aparecerá el siguiente ejemplo, en donde podemos observar que se ha definido un K=2.

kmedoids1.PNG
flechaabajo.png

Si realizamos la corrida del modelo observamos que en el DataSet original hay 4 atributos (aunque label para este ejemplo no se utiliza)

Aquí vemos que se han agregado 2 atributos, id y cluster

kmedoids2.PNG

Aquí vemos como se han distribuido los ejemplos en los cluster.

kmedoids4.PNG
flecha.png
flechaabajo.png
flechaabajo.png

Y los valores de la tabla de centroides

kmedoids3.PNG

La tabla de Centroides.

kmedoids5.PNG

Y finalmente el gráfico de dispersión de los atributos att1 y att2 en los dos cluster definidos.

kmedoids6.PNG
bottom of page