top of page

2.1 Text Mining en RapidMiner

rapidminer.png

Antes de empezar es necesario mencionar que muchos operadores no se encuentran disponibles en la instalación de RM, en algunos casos depende de la versión de RM con la que trabajemos.

En caso de no tener alguno de los operadores debemos agregarlos del menú de RM, por ejemplo para los operadores que usaremos a continuación debemos ir a: ==> Extensiones ==> Marketplace (Updates and Extensions) ... ==> Text Processing 

flecha.png

Para desarrollar el siguiente ejemplo descargaremos el archivo "Text Mining.rar" (este archivo fue obtenido de un curso de postgrado de la Universidad Nacional de la Plata)

Operador Process Documents From File

Este operador genera vectores de palabras a partir de una colección de texto almacenada en varios archivos.

Insertamos los siguientes operadores con las conexiones que se indican. A continuación indicamos los siguientes valores para los parámetros:

K-Means con K = 3

textmining4.PNG

Operador Store

Este operador genera vectores de palabras a partir de una colección de texto almacenada en varios archivos.

Debemos hacer clic en "Repository entry", se nos abrirá la ventana "Repository Browser", y en ese lugar colocamos el nombre del nuevo DataSet del repositorio en "Name", en nuestro caso colocamos el nombre "agrupamiento"

textmining5.PNG

Parámetros del operador "Process Documents From File"

En los parámetros de este operador hacemos clic en Edit List

textmining6.PNG

Luego, le indicamos la ubicación de los directores de los documentos con los que trabajaremos, no debemos olvidar que estos archivos y directorios se encuentran en el archivo "Text Mining.rar" que se encuentra al inicio de esta página.

textmining7.PNG

Suboperadores del operador "Process Documents From File"

Este operador puede tener varios operadores dentro suyo, para insertarlos debemos hacer doble clic en el operador "Process Documents From File", y los mismos deben estar correctamente relacionados (con la entrada y la salida). Insertamos los siguientes operadores con las conexiones tal como se muestra y se deben colocar los parámetros de los mismos tal como se indica debajo.

textmining8.PNG

Operador Tokenize

Separa cada documento en tokens, en donde puede indicarse el carácter a utilizar. En este caso colocamos el parámetro que nos muestra por defecto.

textmining9.PNG

Operador Transform Cases

Transforma todos los caracteres a minúsculas o mayúsculas según se indique (seleccionar minúsculas)

textmining10.PNG

Operador Filter Stopwords (Dictionary)

Filtra los tokens que coincidan con cualquier stopword indicado en un determinado archivo, para nuestros ejemplo utilizaremos el archivo stopwords_es.txt provisto en "Text Mining.rar"

textmining11.PNG

Operador Filter Tokens (by Length)

Este operador realiza un filtrado por la longitud de los tokens, en nuestro caso con un mínimo de 4 caracteres y un máximo de 25 caracteres.

textmining12.PNG

Operador Stem (Snowball)

Aplica un algoritmo de stemming (método para reducir una palabra a su raíz o a un stem) para el lenguaje seleccionado, en nuestro caso español.

textmining13.PNG

Operador Generate n-Grams (terms)

Permite combinar tokens, en nuestro caso hemos definido una longitud máxima igual a 2.

textmining14.PNG

Análisis de los resultados obtenidos

A continuación analizaremos algunos de los resultados obtenidos cuando corremos nuestro modelo:

En primer lugar podemos observar la tabla con la que RM ha trabajado, donde además del id, del atributo de cluster, de los atributos metadata con los que se trabajó, vemos que dicha tabla tiene 3247 atributos, en donde se complementa con los tokens y las combinaciones de ellos

textmining15.PNG

Se observa como resultado del operadora K-Medias, como se distribuyeron los registros en los diferentes cluster.

textmining16.PNG

También se podría analizar la tabla de centroides.

textmining17.PNG

Pero quizás lo mas interesante es la tabla que obtuvimos en el repositorio local. Si hacemos clic sobre "Total Ocurrences" la misma se ordena por dicho atributo y en este caso se observa que la palabra con mayor número de ocurrencias es "cocin" (no debemos olvidar que estamos trabajando con el stem de las palabras).

textmining18.PNG
bottom of page