2 Selección

¿Por qué es necesario hacer una correcta Selección de los datos de estudio?

La selección de características es una parte sumamente importante ya sea en KDD o en cualquier otra metodología. Hace referencia al proceso de reducir o reconocer la importancia de los datos recibidos como entradas para su posterior procesamiento y análisis. Durante la selección de características o atributos se pueden agregar características y quitar o modificar datos existentes.

Hay muchas razones por las cuales la selección es crítica:

Implica una reducción de cardinalidad al restringir el número de atributos a considerar por parte del modelo. Imaginemos una tabla de 100 campos o atributos, debemos preguntarnos ¿Todos ellos afectan al modelo? o ¿Cuáles deberíamos considerar? Existe una técnica llamada Matriz de Correlación que nos puede ayudar en esta tarea, tal como veremos mas adelante.

¿Cuáles son los beneficios de esta reducción?

Mejora la calidad del modelo al eliminar las columnas innecesarias.
Se necesita menos CPU, memoria y espacio de almacenamiento durante el proceso del entrenamiento.
La información redundante o poco relevante dificulta encontrar patrones significativos.
Dimensiones mas grandes ==> Datos de aprendizaje mas grandes
Esta selección puede ser realizada a nivel de columnas o atributos, pero también puede ser realizada a nivel de filas o registros, por ejemplo eliminando aquellos registros con datos erróneos o incompletos.
Si los atributos tienen pocos datos se obtendrán pocas ventajas si se las agrega al modelo. Demás esta decir el grave daño que puede significar columnas duplicadas.

Objetivos

Es fundamental tener en claro los objetivos de la Selección:

Decidir las tablas para la Minería de Datos y como concatenarlas

Hay que considerar, que la/s tabla/s con las que trabajará el modelo puede ser una simple planilla de calculo o también encontrarse dentro de una gran base de datos. Por lo tanto debemos estudiar y definir sobre cuales tablas trabajaremos, seguramente no serán las 700 o 800 tablas de la base de datos.

Definir los atributos/variables

Consiste en eliminar o modificar los atributos, siempre considerando que no debe afectar el modelo de minería de datos planteado.

Definir instancias o filas

Se deben tener en consideración las mismas pautas quelos atributos, y como también se dijo antes, además de no afectar el modelo, implica generalmente la reducción de las cantidad de filas, ya sea por errores o por ausencia de información.

Tipos de Selección

Selección horizontal o muestreo

Se eliminan filas o individuos

Selección vertical o reducción de la dimensionalidad

Se eliminan características de los individuos

Técnicas de Muestreo

Existen algunas pautas a considerar antes de analizar las técnicas de muestreo.

¿Cuáles son los casos que se puede presentar con los DataSets?

Se dispone de toda la población
Los datos ya son una muestra de la realidad

Tipos

Muestreo Aleatorio Simple

Método de selección de n unidades sacadas de N, de tal manera que cada una de las muestras tiene la misma probabilidad de ser elegida.

Es un subconjunto de una muestra elegida de una población más grande. Cada individuo se elige al azar y por pura casualidad. En este tipo de muestreo cada individuo tiene la misma probabilidad de ser elegido en cualquier etapa del proceso.

Por ejemplo, si se necesita seleccionar una muestra de 3 personas entre un universo de 15, se le asigna a esas 15 personas un número y, a modo de sorteo, se seleccionan 3 números al azar que conforman la muestra.

Ventajas

Es sencillo armar las muestras
Toma de forma equitativa la selección de las muestras
Todos los individuos de la población tienen igual oportunidad de ser seleccionado
La población es representativa (margen de error la suerte ==> error de muestreo)
Es el mejor método a la hora de explicar los resultados (selección es aleatoria e imparcial)
Por la representatividad obtenida se pueden realizar generalizaciones con respecto a la población

Desventajas

Se requiere de una lista completa de todos los miembros de la población
Esta lista debe estar correctamente elaborada, completa y actualizada
En las poblaciones grandes es difícil disponer de los datos necesarios para este tipo de muestreo

Muestreo Aleatorio Estratificado

Muestra cómo se comporta una característica o variable en una población a través de hacer evidente el cambio de dicha variable en subpoblaciones o estratos en los que se ha dividido.

Se llama muestreo estratificado proporcionado cuando el tamaño de la muestra, de cada uno de los estratos, es proporcional al tamaño de la población.

El muestreo aleatorio estratificado puede ser proporcionado cuando el tamaño de la muestra, de cada uno de los estratos, es proporcional al tamaño de la población. Por ej. Estrato 1 Individuos 2000 Muestra 66, Estrato 2 Individuos 1000 Muestra 33.

Y es desproporcionado cuando permite realizar una muestra de forma equitativa, sin importar la cantidad de individuos que conformen la población del estrato. Por ej. Estrato 1 Individuos 2000 Muestra 50, Estrato 2 Individuos 1000 Muestra 50.

Ventajas

Mayor capacidad de inferencia y comparaciones dentro de un grupo
Mínimo de errores en muestras del mismo tamaño (necesita muestras pequeñas para el mismo margen del error)
Las muestras son más representativas, los elementos de cada estrato o grupo son representados en la muestra
Se puede obtener mayor conocimiento de la población abordada
Se pueden aplicar diversos métodos y procedimientos en los diferentes estratos
Es posible el análisis de los patrones dentro del estrato y la notificación separada de los resultados

Desventajas

Es necesario obtener información sobre la proporción de la población perteneciente a cada estrato
Se requiere información sobre las variables de estratificación de cada elemento de la población
Es un método más costoso, ya que implica tiempo y es complicado en comparación con otros métodos
Si se cuenta con un gran número de variables, la selección de la estratificación resulta más difícil

Muestreo de Grupos o Conglomerados

Es una técnica utilizada cuando hay agrupamientos "naturales" relativamente homogéneos en una población estadística. Se utiliza cuando los grupos son similares pero son diversos internamente.

Se pueden seleccionar algunos conglomerados al azar, todos los conglomerados deben tener las mismas probabilidades de ser seleccionados y utilizarlos en representación de la población.

El ejemplo clásico es el geográfico, supongamos que se quiere hacer un estudio en un país, se divide el mismo en conglomerados tales como las provincias, localidades, ciudades, etc.

Mediante el muestreo por conglomerados se reducen notablemente los individuos a estudiar, lo que implica reducir los costos económicos.

Ventajas

Se usa mucho en encuestas personales, especialmente cuando la población se encuentra dispersa ya que permite abaratar costos
Solo se pide un marco muestral de todos los conglomerados seleccionados

Desventajas

Si existe escasa heterogeneidad dentro de los conglomerados esto puede afectar la calidad del diseño muestral
El problema se presenta cuando la heterogeneidad no puede ser confirmada
En muestreos polietápicos por conglomerados (a partir de grupos grandes de la población se van seleccionando sucesivamente grupos de menor tamaño) se requieren marcos muestrales específicos para cada etapa de selección.

Nota: Se utiliza el muestreo por conglomerados cuando los grupos son muy heterogéneos y no existen muchas diferencias entre conglomerados. Se utiliza el muestreo estratificado cuando los grupos o estratos son muy homogéneos internamente y diferentes entre ellos.

Continuar