top of page

3.Arboles de Decisión

Es un método analítico que a través de una representación esquemática de las alternativas disponible facilita la toma de decisiones, especialmente cuando existen riesgos, costos, beneficios y múltiples opciones. El nombre deriva de la apariencia del modelo parecido a un árbol y su uso es amplio en el ámbito de la toma de decisiones bajo incertidumbre.

Se considera uno de los mejores y es de los métodos más utilizados de aprendizaje supervisado. Los métodos basados ​​en árboles potencian los modelos predictivos con alta precisión, estabilidad y facilidad de interpretación.

arbol.jpg

A diferencia de los modelos lineales, mapean bastante bien las relaciones no lineales. Son adaptables para resolver cualquier tipo de problema (clasificación o regresión).

Se construye a partir de la identificación sucesiva de los atributos más relevantes.

Se puede utilizar para:

  • Descripción: porque su estructura jerárquica les permite mostrar cómo está organizada la información disponible.

  • Predicción: porque recorriendo sus ramas se obtienen reglas que permiten tomar decisiones. Si todas las hojas se refieren al mismo atributo y es discreto es un árbol de clasificación.

Problemas de tipo regresión

Son aquellos en los que intentamos predecir los valores de una variable continua a partir de una o más variables predictoras categóricas.

Por ejemplo, predecir los precios de venta de casas (una variable dependiente continua) a partir de varios otros predictores continuos (por ejemplo los metros cuadrados) así como predictores categóricos (por ejemplo, cantidad de pisos, código postal, etc).

Si utilizamos la regresión múltiple simple, o algún modelo lineal general ( GLM ) para predecir los precios de venta de viviendas, determinaríamos una ecuación lineal para estas variables que puede usarse para calcular los precios de venta pronosticados

arbol3.png

Problemas de tipo de clasificación

Son aquellos en los que intentamos predecir los valores de una variable dependiente categórica a partir de una o más variables predictoras continuas.

Por ejemplo predecir quién aprobará un curso de la universidad, o quién renovará o no una suscripción. Estos son ejemplos de problemas simples de clasificación binaria, donde la variable dependiente categórica solo puede asumir dos valores distintos y mutuamente excluyentes.

Podemos estar interesados ​​en predecir cuál de los múltiples productos de consumo alternativos diferentes (por ejemplo, marcas de automóviles) decide comprar una persona, o qué tipo de falla ocurre con diferentes tipos de motores. En esos casos, existen múltiples categorías o clases para la variable dependiente categórica.

arbol4.jpg

Algoritmo de árbol de decisión

Los árboles de decisión clasifican los ejemplos clasificándolos por el árbol desde la raíz hasta algún nodo hoja, con el nodo hoja proporcionando la clasificación, este enfoque se llama top-down recursive divide-and-conquer.

Cada nodo en el árbol actúa como un caso de prueba para algún atributo, y cada borde que desciende de ese nodo corresponde a una de las posibles respuestas al caso de prueba. Este proceso es recursivo y se repite para cada subárbol enraizado en los nuevos nodos.

arbol5.png
  • Nodo raíz (nodo de decisión superior): Representa a toda la población o muestra y esto se divide en dos o
    más conjuntos homogéneos.

  • División: Es un proceso de división de un nodo en dos o más subnodos.

  • Nodo de decisión: Cuando un subnodo se divide en subnodos adicionales, se llama nodo de decisión.

  • Nodo de hoja / terminal: Los nodos sin hijos (sin división adicional) se llaman Hoja o nodo terminal.

  • Poda: Cuando reducimos el tamaño de los árboles de decisión eliminando nodos (opuesto a la división), el proceso se llama poda.

  • Rama / Subárbol: Una subsección del árbol de decisión se denomina rama o subárbol.

  • Nodo padre e hijo: Un nodo, que se divide en subnodos se denomina nodo principal de subnodos, mientras que los subnodos son hijos de un nodo principal.

Conceptos del árbol de decisión:

concepto.jpg
  • Nodo raíz (nodo de decisión superior): Representa a toda la población o muestra y esto se divide en dos o
    más conjuntos homogéneos.

  • División: Es un proceso de división de un nodo en dos o más subnodos.

  • Nodo de decisión: Cuando un subnodo se divide en subnodos adicionales, se llama nodo de decisión.

  • Nodo de hoja / terminal: Los nodos sin hijos (sin división adicional) se llaman Hoja o nodo terminal.

  • Poda: Cuando reducimos el tamaño de los árboles de decisión eliminando nodos (opuesto a la división), el proceso se llama poda.

  • Rama / Subárbol: Una subsección del árbol de decisión se denomina rama o subárbol.

  • Nodo padre e hijo: Un nodo, que se divide en subnodos se denomina nodo principal de subnodos, mientras que los subnodos son hijos de un nodo principal.

Conceptos del árbol de decisión:

concepto.jpg
  • Al comienzo, todos los ejemplos de entrenamiento están en el nodo raíz

  • Los atributos son categóricos (si hay valores continuos, deben discretizarse previamente)

  • Los ejemplos se particionan recursivamente basado en los atributos seleccionados

  • Los atributos se seleccionan en base a una heurística o una medida estadística (p.ej., ganancia de información)

  • ​Condiciones para detener el particionamiento

    • Todas las muestras para un nodo dado corresponden a la misma clase.

    • No hay atributos restantes para particionar. Se usa voto mayoritario para clasificar la hoja.

    • No quedan más muestras (registros del conjunto de entrenamiento).

Pasos del algoritmo del árbol de decisión:

pasos.jpg

Medida de desorden

El DESORDEN PROMEDIO producido por la selección de un atributo puede medirse como:

Donde
                es el número de muestras en la rama b,


                es el número total de muestras en todas las ramas,

 

                es el total de muestras en la rama b de la clase c.

arbol6.PNG
arbol7.PNG
arbol8.PNG
arbol9.PNG

Es un número real entre 0 y 1 que será más chico cuanto más homogéneos sean los subconjuntos que este atributo genere.

Desorden en una rama

Analizando sólo una rama de un atributo:

Donde
                es el número de muestras en la rama b,

                es el total de muestras en la rama b de la clase c.

arbol7.PNG
arbol9.PNG
arbol10.PNG

Análisis de desorden en un caso particular

Supongamos que tenemos el siguiente ejemplo, en donde existe una tabla que nos indica en que casos una persona se quemó o no con el sol.

¿Qué deducciones podemos hacer de la misma?

  • El atributo Resultado es el label o el objetivo de nuestro modelo.

  • El atributo Nombre no afecta de ninguna manera en dicho objetivo, razón por la cual no lo consideramos.

arbol13.PNG

Procedemos a indicar según los valores de cada atributo la distribución de los personas que se quemaron (están con rojo) o no.

Si aplicamos la formula de desorden vista previamente, obtenemos para el atributo Pelo:

¿Qué atributos deberíamos elegir como raíz de nuestro árbol?

arbol14.PNG
arbol18.PNG
flechaabajo.png

Aplicando la formula de Desorden Promedio para cada rama del árbol

arbol20.PNG

Obtenemos los siguientes valores y elegimos el de menor desorden

arbol21.PNG

Y así continuamos construyendo nuestro árbol con los atributos y los valores restantes.

arbol22.PNG

Random Forest

Los '"Bosques Aleatorios"' son una combinación de árboles predictores tal que cada árbol depende de los valores de un vector aleatorio probado independientemente y con la misma distribución para cada uno de estos.

La idea esencial del bagging es promediar muchos modelos ruidosos pero aproximadamente imparciales, y por tanto reducir la variación. Los árboles son los candidatos ideales para el bagging, dado que ellos pueden registrar estructuras de interacción compleja en los datos, y si crecen suficientemente profundo, tienen relativamente baja parcialidad.

arbol44.png
arbol45.png

Ventajas mas significativas

  • Es uno de los algoritmos de aprendizaje más certeros.

  • Correr eficientemente en bases de datos grandes.

  • Manejar cientos de variables de entrada sin excluir ninguna.

  • Da estimaciones de qué variables son importantes en la clasificación.

  • Eficaz para estimar datos perdidos y mantener la exactitud cuando una gran proporción de los datos está perdida.

  • Es posible usarlo como método no supervisado (clustering) y detección de outliers.

Desventajas

  • A diferencia de los árboles de decisión, la clasificación hecha por random forests es difícil de interpretar.

  • Bueno para clasificación, no tanto para regresión. Las predicciones no son de naturaleza continua.

  • En regresión, no puede predecir más allá del rango de valores del conjunto de entrenamiento.

  • Poco control en lo que hace el modelo (modelo caja negra).

bottom of page