4.Reglas de Clasificación

Continuar

El aprendizaje de reglas de clasificación es un problema clásico del aprendizaje automático. Estos métodos utilizan un conjunto de entrenamiento compuesto por objetos descritos por atributos de condición (con los cuales se forman las condiciones pi) y el rasgo de decisión (clase).

Las reglas de decisión son una de las formas de representación del conocimiento típicas para formalizar el conocimiento descubierto, debido a su expresividad simbólica es considerada más comprensible y natural, las reglas constituyen bloques de conocimiento y los expertos del dominio pueden analizarlas individualmente.

Representan funciones que establecen una relación entre los ejemplos y las clases de decisión. Se expresan de la forma If P then Q, donde P es la parte condicional formada usualmente por una conjunción de condiciones elementales (p1 and p2 and ... pk), y Q es la parte de decisión que asigna un valor de decisión (clase) a un objeto que cumpla la condición. Las reglas constituyen patrones que establecen una dependencia entre los valores de los atributos de condición en P y el valor de decisión Q.

Reglas vs Arboles

En general las reglas son más compactas
que los árboles. Especialmente si puede
usarse una regla por defecto.

 Cada regla puede representar un concepto distinto. Esto permite agregar/quitar reglas fácilmente cosa que no es fácil de hacer en el árbol.
 Una regla puede fallar para algunos ejemplos. El árbol no.

La estrategia utilizada para aprender reglas, está basada en covering, esto es, encontrar condiciones de reglas (par atributo-valor) que cubra la mayor cantidad de ejemplos de una clase, y la menor del resto de las clases. Se considera el cubrir una sola clase.
 La idea básica es añadir pruebas a cada regla que se está construyendo buscando maximizar la cobertura minimizando errores.

Algoritmo ZeroR o Zero Rule

Es un operador de Weka, es el método de clasificación más simple que existe y depende solo en el target ignorando todos los predictores. El clasificador ZeroR simplemente predice sobre la clase o categoría principal o mayoritaria (majority category) si es nominal o el valor promedio si es numérico.

El algoritmo ZeroRule usa la media (para variables numéricas) o la moda (para variables nominales) de la variable de salida para asignar un único valor en probabilidad para todos los individuos.

Algoritmo OneR o One Rule

Es también otro operador de Weka, El algoritmo usa particiones derivadas de un sólo atributo para asignar valores a los individuos que tienen ese atributo. El algoritmo calcula internamente la media o la moda del grupo para asignarla como valor de probabilidad a todos los individuos del grupo.

Ventajas

 Es fácil de aplicar.
Puede trabajar con datos faltantes y atributos numéricos.

 Desventajas

 Tiende a obtener muchas reglas porque se ve favorecido por los atributos con muchas categorías ya que particionan los datos en muchas clases.
 Las reglas no necesariamente dan una clasificación exacta.

Algoritmo PrisM

Es un algoritmo de tipo cobertura que en cada paso identifica una regla que cubre algunas de las instancias. La aproximación de cobertura se dirige hacia un conjunto de reglas en lugar de hacia un árbol de decisión. El algoritmo Prism a diferencia de los algoritmos de construcción de árboles de decisión que utilizan una estrategia “divide y vencerás”, utiliza una estrategia “separa y vencerás”. Dicha estrategia consiste en buscar una solución parcial al problema (una sola regla) y, una vez encontrada, reducir el problema eliminando todos los ejemplos cubiertos por la solución encontrada.

Es un algoritmo basico de aprendizaje de reglas que supone que no hay ruido en los datos.
Sea t el numero de ejemplos cubiertos por la regla y p el numero de ejemplos positivos cubiertos por la regla.
PRISM anade condiciones a reglas que maximicen la relacion p/t (relacion entre ejemplos positivos cubiertos y ejemplos cubiertos en total).
La construcción de las reglas busca caracterizar (cubrir) exactamente a los datos.
A medida que se cubren los ejemplos, se eliminan de la entrada de datos.
Este mecanismo de construcción lleva a obtener una lista de decisión pues el orden de ejecución de las reglas queda predeterminado.

Calidad de una regla

Existen una serie de medidas que se utilizan para medir la calidad de una regla, a continuación mostraremos las mas utilizadas.

Soporte

Proporción de instancias que la regla predice correctamente.

El Soporte de una regla de asociación X ==> Y en una base de datos D está dado por la expresión

Confianza

 Cociente entre la cantidad de veces que la regla se cumple y la cantidad de veces que se puede aplicar.

La Confianza (confidence) de una regla de asociación X  Y está dada por la siguiente expresión:

Interés

Dada una regla A ==> B, el interés mide
cuantas veces más se verifican A y B juntos
de lo que se esperaría si fueran
independientes.

Si es >1, se dice que hay una dependencia positiva (A incide positivamente en B) y la regla es interesante.
 Por el contrario, si es < 1 hay dependencia negativa y la regla no tiene interés.

Mide el grado de dependencia entre atributos.

Sin embargo, mide co-ocurrencia pero no la dirección de la implicación porque es una medida simétrica.