2 Selección
¿Por qué es necesario hacer una correcta Selección de los datos de estudio?
La selección de características es una parte sumamente importante ya sea en KDD o en cualquier otra metodología. Hace referencia al proceso de reducir o reconocer la importancia de los datos recibidos como entradas para su posterior procesamiento y análisis. Durante la selección de características o atributos se pueden agregar características y quitar o modificar datos existentes.
Hay muchas razones por las cuales la selección es crítica:
Implica una reducción de cardinalidad al restringir el número de atributos a considerar por parte del modelo. Imaginemos una tabla de 100 campos o atributos, debemos preguntarnos ¿Todos ellos afectan al modelo? o ¿Cuáles deberíamos considerar? Existe una técnica llamada Matriz de Correlación que nos puede ayudar en esta tarea, tal como veremos mas adelante.
¿Cuáles son los beneficios de esta reducción?
- Mejora la calidad del modelo al eliminar las columnas innecesarias.
- Se necesita menos CPU, memoria y espacio de almacenamiento durante el proceso del entrenamiento.
-
La información redundante o poco relevante dificulta encontrar patrones significativos.
Dimensiones mas grandes ==> Datos de aprendizaje mas grandes -
Esta selección puede ser realizada a nivel de columnas o atributos, pero también puede ser realizada a nivel de filas o registros, por ejemplo eliminando aquellos registros con datos erróneos o incompletos.
-
Si los atributos tienen pocos datos se obtendrán pocas ventajas si se las agrega al modelo. Demás esta decir el grave daño que puede significar columnas duplicadas.
Objetivos
Es fundamental tener en claro los objetivos de la Selección:
-
Decidir las tablas para la Minería de Datos y como concatenarlas
Hay que considerar, que la/s tabla/s con las que trabajará el modelo puede ser una simple planilla de calculo o también encontrarse dentro de una gran base de datos. Por lo tanto debemos estudiar y definir sobre cuales tablas trabajaremos, seguramente no serán las 700 o 800 tablas de la base de datos.
-
Definir los atributos/variables
Consiste en eliminar o modificar los atributos, siempre considerando que no debe afectar el modelo de minería de datos planteado.
-
Definir instancias o filas
Se deben tener en consideración las mismas pautas quelos atributos, y como también se dijo antes, además de no afectar el modelo, implica generalmente la reducción de las cantidad de filas, ya sea por errores o por ausencia de información.
Tipos de Selección
Selección horizontal o muestreo
Se eliminan filas o individuos
Selección vertical o reducción de la dimensionalidad
Se eliminan características de los individuos
Técnicas de Muestreo
Existen algunas pautas a considerar antes de analizar las técnicas de muestreo.
¿Cuáles son los casos que se puede presentar con los DataSets?
-
Se dispone de toda la población
-
Los datos ya son una muestra de la realidad
Tipos
Método de selección de n unidades sacadas de N, de tal manera que cada una de las muestras tiene la misma probabilidad de ser elegida.
Es un subconjunto de una muestra elegida de una población más grande. Cada individuo se elige al azar y por pura casualidad. En este tipo de muestreo cada individuo tiene la misma probabilidad de ser elegido en cualquier etapa del proceso.
Por ejemplo, si se necesita seleccionar una muestra de 3 personas entre un universo de 15, se le asigna a esas 15 personas un número y, a modo de sorteo, se seleccionan 3 números al azar que conforman la muestra.
Ventajas
-
Es sencillo armar las muestras
-
Toma de forma equitativa la selección de las muestras
-
Todos los individuos de la población tienen igual oportunidad de ser seleccionado
-
La población es representativa (margen de error la suerte ==> error de muestreo)
-
Es el mejor método a la hora de explicar los resultados (selección es aleatoria e imparcial)
-
Por la representatividad obtenida se pueden realizar generalizaciones con respecto a la población
Desventajas
-
Se requiere de una lista completa de todos los miembros de la población
-
Esta lista debe estar correctamente elaborada, completa y actualizada
-
En las poblaciones grandes es difícil disponer de los datos necesarios para este tipo de muestreo
Muestra cómo se comporta una característica o variable en una población a través de hacer evidente el cambio de dicha variable en subpoblaciones o estratos en los que se ha dividido.
Se llama muestreo estratificado proporcionado cuando el tamaño de la muestra, de cada uno de los estratos, es proporcional al tamaño de la población.
El muestreo aleatorio estratificado puede ser proporcionado cuando el tamaño de la muestra, de cada uno de los estratos, es proporcional al tamaño de la población. Por ej. Estrato 1 Individuos 2000 Muestra 66, Estrato 2 Individuos 1000 Muestra 33.
Y es desproporcionado cuando permite realizar una muestra de forma equitativa, sin importar la cantidad de individuos que conformen la población del estrato. Por ej. Estrato 1 Individuos 2000 Muestra 50, Estrato 2 Individuos 1000 Muestra 50.
Ventajas
-
Mayor capacidad de inferencia y comparaciones dentro de un grupo
-
Mínimo de errores en muestras del mismo tamaño (necesita muestras pequeñas para el mismo margen del error)
-
Las muestras son más representativas, los elementos de cada estrato o grupo son representados en la muestra
-
Se puede obtener mayor conocimiento de la población abordada
-
Se pueden aplicar diversos métodos y procedimientos en los diferentes estratos
-
Es posible el análisis de los patrones dentro del estrato y la notificación separada de los resultados
Desventajas
-
Es necesario obtener información sobre la proporción de la población perteneciente a cada estrato
-
Se requiere información sobre las variables de estratificación de cada elemento de la población
-
Es un método más costoso, ya que implica tiempo y es complicado en comparación con otros métodos
-
Si se cuenta con un gran número de variables, la selección de la estratificación resulta más difícil
Es una técnica utilizada cuando hay agrupamientos "naturales" relativamente homogéneos en una población estadística. Se utiliza cuando los grupos son similares pero son diversos internamente.
Se pueden seleccionar algunos conglomerados al azar, todos los conglomerados deben tener las mismas probabilidades de ser seleccionados y utilizarlos en representación de la población.
El ejemplo clásico es el geográfico, supongamos que se quiere hacer un estudio en un país, se divide el mismo en conglomerados tales como las provincias, localidades, ciudades, etc.
Mediante el muestreo por conglomerados se reducen notablemente los individuos a estudiar, lo que implica reducir los costos económicos.
-
Se usa mucho en encuestas personales, especialmente cuando la población se encuentra dispersa ya que permite abaratar costos
-
Solo se pide un marco muestral de todos los conglomerados seleccionados
Desventajas
-
Si existe escasa heterogeneidad dentro de los conglomerados esto puede afectar la calidad del diseño muestral
-
El problema se presenta cuando la heterogeneidad no puede ser confirmada
-
En muestreos polietápicos por conglomerados (a partir de grupos grandes de la población se van seleccionando sucesivamente grupos de menor tamaño) se requieren marcos muestrales específicos para cada etapa de selección.
Nota: Se utiliza el muestreo por conglomerados cuando los grupos son muy heterogéneos y no existen muchas diferencias entre conglomerados. Se utiliza el muestreo estratificado cuando los grupos o estratos son muy homogéneos internamente y diferentes entre ellos.