4.1 Reglas de Clasificación en RM
Operador W-ZeroR
Como se dijo previamente, este operador de Weka predice sobre la clase mayoritaria.
Este ejemplo (obtenido de un curso de postgrado de la Universidad Nacional de la Plata) utiliza el operador W-ZeroR para determinar la clase mayoritaria.
Para ello insertan el operador Read Excel y W-Zero-R tal como se muestra en la imagen a continuación.
Descargue el archivo Drug5.xls que se muestra a continuación
Este DataSet tiene los siguientes atributos Age (edad), Sex (sexo), BP (presión arterial), Cholesterol (colesterol), Na, K y Drug (droga). Este último debe ser definido como label, ya que según los atributos anteriores definen el tipo de droga que van a usar.
El resultado que predice es la clase mayoritaria del DataSet, en este caso drugY.
Eficiencia del operador W-ZeroR
Para saber la exactitud del modelo procedemos a insertar los siguientes operadores (el operador Performance se analizó en el punto 3.1).
El operador "Multiply" crea una copia de un objeto RM.
En este caso el operador "Multiply" aplica el modelo sobre el mismo conjunto de datos que se utilizó para su construcción, lo ideal sería separar en dos lotes de datos distintos (para aplicación y entrenamiento).
Como se puede observar este operador solo clasifico para la clase mayoritaria "DrugY", y lo hizo con una precisión del 45,50%.
Operador W-OneR
Como ya se dijo este operador de Weka predice utilizando el atributo de error mínimo para la predicción, discretizando atributos numéricos.
Este ejemplo utiliza el operador W-OneR.
Para ello debemos insertar Retrieve con el DataSet Golf (como se hizo anteriormente y W--OneR tal como se muestra en la imagen ade arriba.
Y corriendo este modelo se puede observar que predice 10 de las 14 instancias que poseía el DataSet dado.
Esto corresponde al 71,43%, que sería el mismo valor que si aplicamos el operador Performance, tal como puede observarse debajo.
Algo muy interesante (y eficiente que podemos hacer es convertir aplicar el operador "Numerical to Polynominal", este operador como su nombre lo indica convierte todos los atributos numéricos del DataSet (en nuestro caso es temperatura y humedad) en atributos nominales.
Y como puede observarse asigna correctamente 13 de las 14 instancias o registros del DataSet, obteniendo una performance del 92,86%.
Operador W-PrismM
Este es otro operador de Weka predice utilizando el método PrisM visto anteriormente para clasificación.
Solo puede operar con atributos nominales.
No puedo trabajar con los valores perdidos u outliers.
No hace ninguna poda.
Vamos a modificar el último gráfico visto, reemplazando el operador W-OneR por W-PrisM
Podemos observar que con este método se han asignado todas las instancias y se ha coseguido una exactitud del 100%.