miércoles, 27 de junio de 2012

DATA MINING


Minería de Datos – Data Mining


1 Conceptos e Historia
 Aunque desde un punto de vista académico el término data mining es una
 etapa dentro de un proceso mayor llamado extracción de conocimiento en
 bases de datos, (mencionado en el capitulo anterior) en el entorno comercial,
 así como en este trabajo, ambos términos se usan de manera indistinta. Lo
 que en verdad hace el data mining es reunir las ventajas de varias áreas como
 la Estadística, la Inteligencia Artificial, la Computación Gráfica, las Bases de
 Datos y el Procesamiento Masivo, principalmente usando como materia prima
 las bases de datos. Una definición tradicional es la siguiente: Un proceso no
 trivial de identificación válida, novedosa, potencialmente útil y entendible de
 patrones comprensibles que se encuentran ocultos en los datos (Fayyad y otros,
 1996). Desde el punto de vista empresarial , lo definimos como: La integración
 de un conjunto de áreas que tienen como propósito la identificación de un
 conocimiento obtenido a partir de las bases de datos que aporten un sesgo
 hacia la toma de decisión (Molina y otros, 2001).
 La idea de data mining no es nueva. Ya desde los años sesenta los estadísticos manejaban términos como data fishing, data mining o data archaeology
 con la idea de encontrar correlaciones sin una hipótesis previa en bases de
 datos con ruido. A principios de los años ochenta, Rakesh Agrawal, Gio Wiederhold, Robert Blum y Gregory Piatetsky-Shapiro, entre otros, empezaron a

consolidar los términos de data mining y KDD.[3] A finales de los años ochenta
 sólo existían un par de empresas dedicadas a esta tecnología; en 2002 existen
 más de 100 empresas en el mundo que ofrecen alrededor de 300 soluciones.
 Las listas de discusión sobre este tema las forman investigadores de más de
 ochenta países. Esta tecnología ha sido un buen punto de encuentro entre
 personas pertenecientes al ámbito académico y al de los negocios.
 El data mining es una tecnología compuesta por etapas que integra varias
 áreas y que no se debe confundir con un gran software. Durante el desarrollo
 de un proyecto de este tipo se usan diferentes aplicaciones software en cada
 etapa que pueden ser estadísticas, de visualización de datos o de inteligencia
 artificial, principalmente. Actualmente existen aplicaciones o herramientas
 comerciales de data mining muy poderosas que contienen un sinfín de utilerías
 que facilitan el desarrollo de un proyecto. Sin embargo, casi siempre acaban
 complementándose con otra herramienta.
 La data mining es la etapa de descubrimiento en el proceso de KDD: Paso
 consistente en el uso de algoritmos concretos que generan una enumeración
 de patrones a partir de los datos preprocesados (Fayyad et al., 1996)Aunque
 se suelen usar indistintamente los términos KDD y Minería de Datos.

2 Los Fundamentos del Data Mining
 Las técnicas de Data Mining son el resultado de un largo proceso de investigación y desarrollo de productos. Esta evolución comenzó cuando los datos
 de negocios fueron almacenados por primera vez en computadoras, y continuó
 con mejoras en el acceso a los datos, y más recientemente con tecnologías generadas para permitir a los usuarios navegar a través de los datos en tiempo
 real. Data Mining toma este proceso de evolución más allá del acceso y navegación retrospectiva de los datos, hacia la entrega de información prospectiva
 y proactiva. Data Mining está listo para su aplicación en la comunidad de negocios porque está soportado por tres tecnologías que ya están suficientemente
 maduras:
 • Recolección masiva de datos.
 • Potentes computadoras con multiprocesadores.
 • Algoritmos de Data Mining.


3. PRINCIPALES CARACTERÍSTICAS Y OBJETIVOS DE LA MINERÍA DE DATOS
 Las bases de datos comerciales están creciendo a un ritmo sin precedentes.
 Un reciente estudio del META GROUP sobre los proyectos de Data Warehouse encontró que el 19% de los que contestaron están por encima del nivel de los
 50 Gigabytes, mientras que el 59% espera alcanzarlo en el segundo trimestre
 de 1997. En algunas industrias, tales como ventas al por menor (retail), estos
 números pueden ser aún mayores. MCI Telecommunications Corp. cuenta con
 una base de datos de 3 terabytes + 1 terabyte de índices y overhead corriendo
 en MVS sobre IBM SP2. La necesidad paralela de motores computacionales
 mejorados puede ahora alcanzarse de forma más costo – efectiva con tecnología de computadoras con multiprocesamiento paralelo. Los algoritmos de
 Data Mining utilizan técnicas que han existido por lo menos desde hace 10
 años, pero que sólo han sido implementadas recientemente como herramientas
 maduras, confiables, entendibles que consistentemente son más performantes
 que métodos estadísticos clásicos.
 En la evolución desde los datos de negocios a información de negocios, cada nuevo paso se basa en el previo. Por ejemplo, el acceso a datos dinámicos
 es crítico para las aplicaciones de navegación de datos (drill through applications), y la habilidad para almacenar grandes bases de datos es crítica para
 Data Mining.
 Los componentes esenciales de la tecnología de Data Mining han estado
 bajo desarrollo por décadas, en áreas de investigación como estadísticas, inteligencia artificial y aprendizaje de máquinas. Hoy, la madurez de estas técnicas,
 junto con los motores de bases de datos relacionales de alta performance, hicieron que estas tecnologías fueran prácticas para los entornos de data warehouse
 actuales.
 3.2 Principales características y objetivos de la Minería de Datos
 • Explorar los datos se encuentran en las profundidades de las bases de
 datos, como los almacenes de datos, que algunas veces contienen información almacenada durante varios años.
 • En algunos casos, los datos se consolidan en un almacén de datos y en
 mercados de datos; en otros, se mantienen en servidores de Internet e
 Intranet.

• El entorno de la minería de datos suele tener una arquitectura clienteservidor.
 • Las herramientas de la minería de datos ayudan a extraer el mineral de
 la información enterrado en archivos corporativos o en registros públicos,
 archivados
 • El minero es, muchas veces un usuario final con poca o ninguna habilidad
 de programación, facultado por barrenadoras de datos y otras poderosas herramientas indagatorias para efectuar preguntas adhoc y obtener
 rápidamente respuestas.
 • Hurgar y sacudir a menudo implica el descubrimiento de resultados valiosos e inesperados.
 • Las herramientas de la minería de datos se combinan fácilmente y pueden
 analizarse y procesarse rápidamente.
 • Debido a la gran cantidad de datos, algunas veces resulta necesario usar
 procesamiento en paralelo para la minería de datos.
 • La minería de datos produce cinco tipos de información:
 — Asociaciones.
 — Secuencias.
 — Clasificaciones.
 — Agrupamientos.
 — Pronósticos.
 • Los mineros de datos usan varias herramientas y técnicas.
 La minería de datos es un proceso que invierte la dinámica del método
 científico en el siguiente sentido:
 En el método científico, primero se formula la hipótesis y luego se diseña
 el experimento para coleccionar los datos que confirmen o refuten la hipótesis.
 Si esto se hace con la formalidad adecuada (cuidando cuáles son las variables
 controladas y cuáles experimentales), se obtiene un nuevo conocimiento.
 En la minería de datos, se coleccionan los datos y se espera que de ellos
 emerjan hipótesis. Se busca que los datos describan o indiquen por qué son

como son. Luego entonces, se valida esa hipótesis inspirada por los datos en
 los datos mismos, será numéricamente significativa, pero experimentalmente
 inválida. De ahí que la minería de datos debe presentar un enfoque exploratorio, y no confirmador. Usar la minería de datos para confirmar las hipótesis
 formuladas puede ser peligroso, pues se está haciendo una inferencia poco
 válida.
 La minería de datos es una tecnología compuesta por etapas que integra
 varias áreas y que no se debe confundir con un gran software. Durante el
 desarrollo de un proyecto de este tipo se usan diferentes aplicaciones software en cada etapa que pueden ser estadísticas, de visualización de datos o
 de inteligencia artificial, principalmente. Actualmente existen aplicaciones o
 herramientas comerciales de minería de datos muy poderosas que contienen
 un sinfín de utilerías que facilitan el desarrollo de un proyecto. Sin embargo,
 casi siempre acaban complementándose con otra herramienta.

4. El Alcance de Data Mining
 El nombre de Data Mining deriva de las similitudes entre buscar valiosa información de negocios en grandes bases de datos – por ej.: encontrar información
 de la venta de un producto entre grandes montos de Gigabytes almacenados
 - y minar una montaña para encontrar una veta de metales valiosos. Ambos
 procesos requieren examinar una inmensa cantidad de material, o investigar inteligentemente hasta encontrar exactamente donde residen los valores. Dadas
 bases de datos de suficiente tamaño y calidad, la tecnología de Data Mining
 puede generar nuevas oportunidades de negocios al proveer estas capacidades:
 • Predicción automatizada de tendencias y comportamientos. Data Mining automatiza el proceso de encontrar información predecible en grandes bases de datos. Preguntas que tradicionalmente requerían un intenso
 análisis manual, ahora pueden ser contestadas directa y rápidamente desde los datos. Un típico ejemplo de problema predecible es el marketing
 apuntado a objetivos (targeted marketing). Data Mining usa datos en
 mailing promocionales anteriores para identificar posibles objetivos para
 maximizar los resultados de la inversión en futuros mailing. Otros problemas predecibles incluyen pronósticos de problemas financieros futuros
 y otras formas de incumplimiento, e identificar segmentos de población
 que probablemente respondan similarmente a eventos dados.

• Descubrimiento automatizado de modelos previamente desconocidos. Las
 herramientas de Data Mining barren las bases de datos e identifican modelos previamente escondidos en un sólo paso. Otros problemas de descubrimiento de modelos incluye detectar transacciones fraudulentas de
 tarjetas de créditos e identificar datos anormales que pueden representar
 errores de tipeado en la carga de datos.
 Las técnicas de Data Mining pueden redituar los beneficios de automatización en las plataformas de hardware y software existentes y puede ser
 implementadas en sistemas nuevos a medida que las plataformas existentes se
 actualicen y nuevos productos sean desarrollados. Cuando las herramientas
 de Data Mining son implementadas en sistemas de procesamiento paralelo de
 alta performance, pueden analizar bases de datos masivas en minutos. Procesamiento más rápido significa que los usuarios pueden automáticamente experimentar con más modelos para entender datos complejos. Alta velocidad
 hace que sea práctico para los usuarios analizar inmensas cantidades de datos.
 Grandes bases de datos, a su vez, producen mejores predicciones.

5. Una arquitectura para Data Mining
 Para aplicar mejor estas técnicas avanzadas, éstas deben estar totalmente integradas con el data warehouse así como con herramientas flexibles e interactivas
 para el análisis de negocios. Varias herramientas de Data Mining actualmente
 operan fuera del warehouse, requiriendo pasos extra para extraer, importar y
 analizar los datos. Además, cuando nuevos conceptos requieren implementación operacional, la integración con el warehouse simplifica la aplicación de los
 resultados desde Data Mining. El Data warehouse analítico resultante puede
 ser aplicado para mejorar procesos de negocios en toda la organización, en
 áreas tales como manejo de campañas promocionales, detección de fraudes,
 lanzamiento de nuevos productos, etc.
 El punto de inicio ideal es un data warehouse que contenga una combinación de datos de seguimiento interno de todos los clientes junto con datos
 externos de mercado acerca de la actividad de los competidores. Información
 histórica sobre potenciales clientes también provee una excelente base para
 prospecting. Este warehouse puede ser implementado en una variedad de sistemas de bases relacionales y debe ser optimizado para un acceso a los datos
 flexible y rápido.



Fases de un Proyecto de MD y Aplicaciones de Uso
1. Fases de un Proyecto de Minería de Datos
 Los pasos a seguir para la realización de un proyecto de minería de datos son
 siempre los mismos, independientemente de la técnica específica de extracción
 de conocimiento usada. En la sigiente figura 4.1 de la pagina 18 se ilustra las
 Fases del Proyecto de MD.
 El proceso de minería de datos pasa por las siguientes fases:
 • Filtrado de datos.
 • Selección de Variables.
 • Extracción de Conocimiento.
 • Interpretación y Evaluación.
1.1 Filtrado de datos
 El formato de los datos contenidos en la fuente de datos (base de datos, Data
 Warehouse…) nunca es el idóneo, y la mayoría de las veces no es posible ni
 siquiera utilizar ningún algoritmo de minería sobre los datos en bruto.

2. Fases del Proyecto de M.D.
 Mediante el preprocesado, se filtran los datos (de forma que se eliminan
 valores incorrectos, no válidos, desconocidos… según las necesidades y el algoritmo a usar), se obtienen muestras de los mismos (en busca de una mayor
 velocidad de respuesta del proceso), o se reducen el número de valores posibles
 (mediante redondeo, clustering,…).
2.1 Selección de variables
 Aún después de haber sido preprocesados, en la mayoría de los casos se tiene
 una cantidad ingente de datos. La selección de características reduce el tamaño de los datos eligiendo las variables más influyentes en el problema, sin
 apenas sacrificar la calidad del modelo de conocimiento obtenido del proceso
 de minería.
 Los métodos para la selección de características son básicamente dos:
 • Aquellos basados en la elección de los mejores atributos del problema,
 • Y aquellos que buscan variables independientes mediante tests de sensibilidad, algoritmos de distancia o heurísticos.
2.3 Algoritmos de Extracción de Conocimiento
 Mediante una técnica de minería de datos, se obtiene un modelo de conocimiento, que representa patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociación entre dichas variables.También pueden usarse varias técnicas a la vez para generar distintos modelos, aunque generalmente cada técnica obliga a un pre-procesado diferente de los datos.

2..4 Interpretación y evaluación
 Una vez obtenido el modelo, se debe proceder a su validación, comprobando
 que las conclusiones que arroja son válidas y suficientemente satisfactorias.
 En el caso de haber obtenido varios modelos mediante el uso de distintas
 técnicas, se deben comparar los modelos en busca de aquel que se ajuste mejor
 al problema. Si ninguno de los modelos alcanza los resultados esperados, debe
 alterarse alguno de los pasos anteriores para generar nuevos modelos.
3. Aplicaciones de Uso
 Cada año, en los diferentes congresos, simposios y talleres que se realizan en
 el mundo se reúnen investigadores con aplicaciones muy diversas. Sobre todo
 en los Estados Unidos, el data mining se ha ido incorporando a la vida de
 empresas, gobiernos, universidades, hospitales y diversas organizaciones que
 están interesadas en explorar sus bases de datos.
3.1 En el Gobierno:
 • El FBI analizará las bases de datos comerciales para detectar
 terroristas.
 A principios del mes de julio de 2002, el director del Federal Bureau of
 Investigation (FBI), John Aschcroft, anunció que el Departamento de Justicia
 comenzará a introducirse en la vasta cantidad de datos comerciales referentes a los hábitos y preferencias de compra de los consumidores, con el fin de
 descubrir potenciales terroristas antes de que ejecuten una acción. Algunos
 expertos aseguran que, con esta información, el FBI unirá todas las bases de
 datos probablemente mediante el número de la Seguridad Social y permitirá
 saber si una persona fuma, qué talla y tipo de ropa usa, su registro de arrestos, su salario, las revistas a las que está suscrito, su altura y peso, sus contribuciones a la Iglesia, grupos políticos u organizaciones no gubernamentales, sus enfermedades crónicas (como diabetes o asma), los libros que lee, los productos de supermercado que compra, si tomó clases de vuelo o si tiene cuentas de banco abiertas, entre otros. La inversión inicial ronda los setenta millones de dólares estadounidenses para consolidar los almacenes de datos, desarrollar redes de seguridad para compartir información e implementar nuevo software analítico y de visualización.
3.2 En la Empresa
 • Detección de fraudes en las tarjetas de crédito.
 En 2001, las instituciones financieras a escala mundial perdieron más
 de 2.000 millones de dólares estadounidenses en fraudes con tarjetas de
 crédito y débito. El Falcon Fraud Manager es un sistema inteligente que
 examina transacciones, propietarios de tarjetas y datos financieros para
 detectar y mitigar fraudes. En un principio estaba pensado, en instituciones financieras de Norteamérica, para detectar fraudes en tarjetas de
 crédito. Sin embargo, actualmente se le han incorporado funcionalidades de análisis en las tarjetas comerciales, de combustibles y de débito.
 El sistema Falcon ha permitido ahorrar más de seiscientos millones de
 dólares estadounidenses cada año y protege aproximadamente más de
 cuatrocientos cincuenta millones de pagos con tarjeta en todo el mundo
 -aproximadamente el sesenta y cinco por ciento de todas las transacciones con tarjeta de crédito.
 • Descubriendo el porqué de la deserción de clientes de una compañía operadora de telefonía móvil.
 Este estudio fue desarrollado en una operadora española que básicamente situó sus objetivos en dos puntos: el análisis del perfil de los clientes
 que se dan de baja y la predicción del comportamiento de sus nuevos
 clientes. Se analizaron los diferentes históricos de clientes que habían
 abandonado la operadora (12,6%) y de clientes que continuaban con su
 servicio (87,4%). También se analizaron las variables personales de cada
 cliente (estado civil, edad, sexo, nacionalidad, etc.). De igual forma se
 estudiaron, para cada cliente, la morosidad, la frecuencia y el horario de
 uso del servicio, los descuentos y el porcentaje de llamadas locales, interprovinciales, internacionales y gratuitas. Al contrario de lo que se podría
 pensar, los clientes que abandonaban la operadora generaban ganancias para la empresa; sin embargo, una de las conclusiones más importantes radicó en el hecho de que los clientes que se daban de baja recibían pocas promociones y registraban un mayor número de incidencias respecto a la media. De esta forma se recomendó a la operadora hacer un estudio sobre sus ofertas y analizar profundamente las incidencias recibidas por esos clientes. Al descubrir el perfil que presentaban, la operadora tuvo que diseñar un trato más personalizado para sus clientes actuales con esas características. Para poder predecir el comportamiento de sus nuevos clientes se diseñó un sistema de predicción basado en la cantidad de datos que se podía obtener de los nuevos clientes comparados con el comportamiento de clientes anteriores.
 • Hábitos de compra en supermercados.
 Un estudio muy citado detectó que los viernes había una cantidad inusualmente elevada de clientes que adquirían a la vez pañales y cerveza.
 Se detectó que se debía a que dicho día solían acudir al supermercado
 padres jóvenes cuya perspectiva para el fin de semana consistía en quedarse en casa cuidando de su hijo y viendo la televisión con una cerveza
 en la mano. El supermercado pudo incrementar sus ventas de cerveza
 colocándolas próximas a los pañales para fomentar las ventas compulsivas,
 • Prediciendo el tamaño de las audiencias televisivas.
 La British Broadcasting Corporation (BBC) del Reino Unido emplea
 un sistema para predecir el tamaño de las audiencias televisivas para un
 programa propuesto, así como el tiempo óptimo de exhibición (Brachman
 y otros, 1996). El sistema utiliza redes neuronales y árboles de decisión
 aplicados a datos históricos de la cadena para determinar los criterios
 que participan según el programa que hay que presentar. La versión
 final se desempeña tan bien como un experto humano con la ventaja de
 que se adapta más fácilmente a los cambios porque es constantemente
 reentrenada con datos actuales.
3.3 En la Universidad
 • Conociendo si los recién titulados de una universidad llevan a cabo actividades profesionales relacionadas con sus estudios. Se hizo un estudio sobre los recién titulados de la carrera de Ingeniería
 en Sistemas Computacionales del Instituto Tecnológico de Chihuahua II, en Méjico (Rodas, 2001). Se quería observar si sus recién titulados se insertaban en actividades profesionales relacionadas con sus estudios y, en caso negativo, se buscaba saber el perfil que caracterizó a los exalumnos durante su estancia en la universidad. El objetivo era saber si con los planes de estudio de la universidad y el aprovechamiento del alumno se hacía una buena inserción laboral o si existían otras variables que participaban en el proceso. Dentro de la información considerada estaba el sexo, la edad, la escuela de procedencia, el desempeño académico, la zona económica donde tenía su vivienda y la actividad profesional, entre otras variables. Mediante la aplicación de conjuntos aproximados se descubrió que existían cuatro variables que determinaban la adecuada inserción laboral, que son citadas de acuerdo con su importancia: zona económica donde habitaba el estudiante, colegio de donde provenía, nota al ingresar y promedio final al salir de la carrera. A partir de estos resultados, la universidad tendrá que hacer un estudio socio económico sobre grupos de alumnos que pertenecían a las clases económicas bajas para
 dar posibles soluciones, debido a que tres de las cuatro variables no dependían de la universidad.
3.4 En Investigaciones Espaciales
 • Proyecto SKYCAT.
 Durante seis años, el Second Palomar Observatory Sky Survey (POSS-II) coleccionó tres terabytes de imágenes que contenían aproximadamente dos millones de objetos en el cielo. Tres mil fotografías fueron digitalizadas a una resolución de 16 bits por píxel con 23.040 x 23.040 píxeles por imagen. El objetivo era formar un catálogo de todos esos objetos. El sistema Sky Image Cataloguing and Analysis Tool (SKYCAT) se basa en técnicas de agrupación (clustering) y árboles de decisión para poder
 clasificar los objetos en estrellas, planetas, sistemas, galaxias, etc. con una alta confiabilidad (Fayyad y otros, 1996). Los resultados han ayudado a los astrónomos a descubrir dieciséis nuevos quásars con corrimiento hacia el rojo que los incluye entre los objetos más lejanos del universo y, por consiguiente, más antiguos. Estos quásars son difíciles de encontrar y permiten saber más acerca de los orígenes del universo.

3.5 En los Clubes Deportivos
 • Los equipos de la NBA utilizan aplicaciones inteligentes para apoyar a su cuerpo de entrenadores.
 El Advanced Scout es un software que emplea técnicas de data mining y que han desarrollado investigadores de IBM para detectar patrones estadísticos y eventos raros. Tiene una interfaz gráfica muy amigable orientada a un objetivo muy específico: analizar el juego de los equipos de la National Basketball Association (NBA). El software utiliza todos los registros guardados de cada evento en cada juego: pases, encestes, rebotes y doble marcaje (double team) a un jugador por el equipo contrario, entre otros. El objetivo es ayudar a los entrenadores a aislar eventos que no detectan cuando observan el juego
 en vivo o en película. Un resultado interesante fue uno hasta entonces no observado por los entrenadores de los Knicks de Nueva York. El doble marcaje a un jugador puede generalmente dar la oportunidad a otro jugador de encestar más fácilmente. Sin embargo, cuando los Bulls de Chicago jugaban contra los Knicks, se encontró que el porcentaje de encestes después de que al centro de los Knicks, Patrick Ewing, le hicieran doble marcaje era extremadamente bajo, indicando que los Knicks no reaccionaban correctamente a los dobles marcajes. Para saber el porqué, el cuerpo de entrenadores estudió cuidadosamente todas las películas de juegos contra Chicago. Observaron que los jugadores de Chicago rompían su doble marcaje muy rápido de tal forma que podían tapar al encestador libre
 de los Knicks antes de prepararse para efectuar su tiro. Con este conocimiento, los entrenadores crearon estrategias alternativas para tratar con el doble marcaje. La temporada pasada, IBM ofreció el Advanced Scout a la NBA, que se convirtió así en un patrocinador corporativo. La NBA dio a sus veintinueve equipos la oportunidad de aplicarlo. Dieciocho equipos lo están haciendo hasta el momento obteniendo descubrimientos interesantes.

Extensiones del Data Mining

1 Web mining
 Una de las extensiones del data mining consiste en aplicar sus técnicas a documentos y servicios del Web, lo que se llama web mining (minería de web) (Kosala y otros, 2000). Todos los que visitan un sitio en Internet dejan huellas digitales (direcciones de IP, navegador, galletas, etc.) que los servidores automáticamente almacenan en una bitácora de accesos (log). Las herramientas de web mining analizan y procesan estos logs para producir información significativa, por ejemplo, cómo es la navegación de un cliente antes de hacer una compra en línea. Debido a que los contenidos de Internet consisten en varios tipos de datos, como texto, imagen, vídeo, metadatos o hiperligas, investigaciones recientes usan el término multimedia data mining (minería de datos multimedia) como una instancia del web mining (Zaiane y otros, 1998) para tratar ese tipo de datos. Los accesos totales por dominio, horarios de accesos más frecuentes y visitas por día, entre otros datos, son registrados por herramientas estadísticas que complementan todo el proceso de análisis del web mining.
 Normalmente, el web mining puede clasificarse en tres dominios de extracción de conocimiento de acuerdo con la naturaleza de los datos:
 • Web content mining (minería de contenido web). Es el proceso que consiste en la extracción de conocimiento del contenido de documentos o sus descripciones. La localización de patrones en el texto de los documentos, el descubrimiento del recurso basado en conceptos de indexación o la tecnología basada en agentes también pueden formar parte de esta categoría.

• Web structure mining (minería de estructura web). Es el proceso de inferir conocimiento de la organización del WWW y la estructura de sus ligas.
 • Web usage mining (minería de uso web). Es el proceso de extracción de
 modelos interesantes usando los logs de los accesos al web.
 Algunos de los resultados que pueden obtenerse tras la aplicación de los diferentes métodos de web mining son:
 • El ochenta y cinco por ciento de los clientes que acceden a la página home de productos y a la de noticias de la misma página acceden también a la página de historia. Esto podría indicar que existe alguna noticia interesante de la empresa que hace que los clientes se dirijan a historias de suceso. Igualmente, este resultado permitiría detectar la noticia sobresaliente y colocarla quizá en la página principal de la empresa.
 • El sesenta por ciento de los clientes que hicieron una compra en línea en la página del producto 1 también compraron en la página del producto 4 después de un mes. Esto indica que se podría recomendar en la página del producto 1 comprar el producto 4 y ahorrarse el costo de envío de
 este producto. Los anteriores ejemplos ayudan a formar una pequeña idea de lo que se puede obtener. Sin embargo, en la realidad existen herramientas de mercado muy poderosas con métodos variados y visualizaciones gráficas excelentes.

2 Text mining
 Estudios recientes indican que el ochenta por ciento de la información de una
 compañía está almacenada en forma de documentos. Sin duda, este campo de
 estudio es muy vasto, por lo que técnicas como la categorización de texto, el
 procesamiento de lenguaje natural, la extracción y recuperación de la información o el aprendizaje automático, entre otras, apoyan al text mining (minería

de texto). En ocasiones se confunde el text mining con la recuperación de la información (Information Retrieval o IR) (Hearst, 1999). Ésta última consiste en
 la recuperación automática de documentos relevantes mediante indexaciones
 de textos, clasificación, categorización, etc. Generalmente se utilizan palabras
 clave para encontrar una página relevante. En cambio, el text mining se refiere
 a examinar una colección de documentos y descubrir información no contenida
 en ningún documento individual de la colección; en otras palabras, trata de
 obtener información sin haber partido de algo (Nasukawa y otros, 2001).
 Una aplicación muy popular del text mining es relatada en Hearst (1999).
 Don Swanson intenta extraer información derivada de colecciones de texto.
 Teniendo en cuenta que los expertos sólo pueden leer una pequeña parte de
 lo que se publica en su campo, por lo general no se dan cuenta de los nuevos
 desarrollos que se suceden en otros campos. Así, Swanson ha demostrado
 cómo cadenas de implicaciones causales dentro de la literatura médica pueden
 conducir a hipótesis para enfermedades poco frecuentes, algunas de las cuales
 han recibido pruebas de soporte experimental. Investigando las causas de
 la migraña, dicho investigador extrajo varias piezas de evidencia a partir de
 títulos de artículos presentes en la literatura biomédica. Algunas de esas claves
 fueron:
 • El estrés está asociado con la migraña.
 • El estrés puede conducir a la pérdida de magnesio.
 • Los bloqueadores de canales de calcio previenen algunas migrañas.
 • El magnesio es un bloqueador natural del canal de calcio.
 • La depresión cortical diseminada (DCD) está implicada en algunas migrañas.
 • Los niveles altos de magnesio inhiben la DCD.
 • Los pacientes con migraña tienen una alta agregación plaquetaria.
 • El magnesio puede suprimir la agregación plaquetaria.
 Estas claves sugieren que la deficiencia de magnesio podría representar un
 papel en algunos tipos de migraña, una hipótesis que no existía en la literatura y que Swanson encontró mediante esas ligas. De acuerdo con Swanson
 (Swanson y otros, 1994), estudios posteriores han probado experimentalmente
 esta hipótesis obtenida por text mining con buenos resultados.
Datamining (Minería de datos)

El datamining (minería de datos), es el conjunto de técnicas y tecnologías que permiten explorar grandes bases de datos, de manera automática o semiautomática, con el objetivo de encontrar patrones repetitivos, tendencias o reglas que expliquen el comportamiento de los datos en un determinado contexto.

Básicamente, el datamining surge para intentar ayudar a comprender el contenido de un repositorio de datos. Con este fin, hace uso de prácticas estadísticas y, en algunos casos, de algoritmos de búsqueda próximos a la Inteligencia Artificial y a las redes neuronales.

De forma general, los datos son la materia prima bruta. En el momento que el usuario les atribuye algún significado especial pasan a convertirse en información. Cuando los especialistas elaboran o encuentran un modelo, haciendo que la interpretación que surge entre la información y ese modelo represente un valor agregado, entonces nos referimos al conocimiento. Vea más diferencias entre datos, información y conocimiento.



Aunque en datamining cada caso concreto puede ser radicalmente distinto al anterior, el proceso común a todos ellos se suele componer de cuatro etapas principales:

  Determinación de los objetivos. Trata de la delimitación de los objetivos que el cliente desea bajo la orientación del especialista en data mining.

 Preprocesamiento de los datos. Se refiere a la selección, la limpieza, el enriquecimiento, la reducción y la transformación de las bases de datos. Esta etapa consume generalmente alrededor del setenta por ciento del tiempo total de un proyecto de data mining.

  Determinación del modelo. Se comienza realizando unos análisis estadísticos de los datos, y después se lleva a cabo una visualización gráfica de los mismos para tener una primera aproximación. Según los objetivos planteados y la tarea que debe llevarse a cabo, pueden utilizarse algoritmos desarrollados en diferentes áreas de la Inteligencia Artificial.

  Análisis de los resultados. Verifica si los resultados obtenidos son coherentes y los coteja con los obtenidos por los análisis estadísticos y de visualización gráfica. El cliente determina si son novedosos y si le aportan un nuevo conocimiento que le permita considerar sus decisiones.


Carga de trabajo en las fases de un proyecto de datamining

En resumen, el datamining se presenta como una tecnología emergente, con varias ventajas: por un lado, resulta un buen punto de encuentro entre los investigadores y las personas de negocios; por otro, ahorra grandes cantidades de dinero a una empresa y abre nuevas oportunidades de negocios. Además, no hay duda de que trabajar con esta tecnología implica cuidar un sinnúmero de detalles debido a que el producto final involucra “toma de decisiones”.
Proceso

Un proceso típico de minería de datos consta de los siguientes pasos generales:
Selección del conjunto de datos, tanto en lo que se refiere a las variables objetivo (aquellas que se quiere predecir, calcular o inferir), como a las variables independientes(las que sirven para hacer el cálculo o proceso), como posiblemente al muestreo de los registros disponibles.
Análisis de las propiedades de los datos, en especial los histogramas, diagramas de dispersión, presencia de valores atípicos y ausencia de datos (valores nulos).
Transformación del conjunto de datos de entrada, se realizará de diversas formas en función del análisis previo, con el objetivo de prepararlo para aplicar la técnica de minería de datos que mejor se adapte a los datos y al problema, a este paso también se le conoce como preprocesamiento de los datos.
Seleccionar y aplicar la técnica de minería de datos, se construye el modelo predictivo, de clasificación o segmentación.
Extracción de conocimiento, mediante una técnica de minería de datos, se obtiene un modelo de conocimiento, que representa patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociación entre dichas variables. También pueden usarse varias técnicas a la vez para generar distintos modelos, aunque generalmente cada técnica obliga a un preprocesado diferente de los datos.
Interpretación y evaluación de datos, una vez obtenido el modelo, se debe proceder a su validación comprobando que las conclusiones que arroja son válidas y suficientemente satisfactorias. En el caso de haber obtenido varios modelos mediante el uso de distintas técnicas, se deben comparar los modelos en busca de aquel que se ajuste mejor al problema. Si ninguno de los modelos alcanza los resultados esperados, debe alterarse alguno de los pasos anteriores para generar nuevos modelos.

Si el modelo final no superara esta evaluación el proceso se podría repetir desde el principio o, si el experto lo considera oportuno, a partir de cualquiera de los pasos anteriores. Esta retroalimentación se podrá repetir cuantas veces se considere necesario hasta obtener un modelo válido.

Una vez validado el modelo, si resulta ser aceptable (proporciona salidas adecuadas y/o con márgenes de error admisibles) éste ya está listo para su explotación. Los modelos obtenidos por técnicas de minería de datos se aplican incorporándolos en los sistemas de análisis de información de las organizaciones, e incluso, en los sistemas transaccionales. En este sentido cabe destacar los esfuerzos del Data Mining Group, que está estandarizando el lenguaje PMML (Predictive Model Markup Language), de manera que los modelos de minería de datos sean interoperables en distintas plataformas, con independencia del sistema con el que han sido construidos. Los principales fabricantes de sistemas de bases de datos y programas de análisis de la información hacen uso de este estándar.

Tradicionalmente, las técnicas de minería de datos se aplicaban sobre información contenida en almacenes de datos. De hecho, muchas grandes empresas e instituciones han creado y alimentan bases de datos especialmente diseñadas para proyectos de minería de datos en las que centralizan información potencialmente útil de todas sus áreas de negocio. No obstante, actualmente está cobrando una importancia cada vez mayor la minería de datos desestructurados como información contenida en ficheros de texto, en Internet, etc.
Protocolo de un proyecto de minería de datos

Un proyecto de minería de datos tiene varias fases necesarias que son, esencialmente:
Comprensión del negocio y del problema que se quiere resolver.
Determinación, obtención y limpieza de los datos necesarios.
Creación de modelos matemáticos.
Validación, comunicación, etc. de los resultados obtenidos.
Integración, si procede, de los resultados en un sistema transaccional o similar.

La relación entre todas estas fases sólo es lineal sobre el papel. En realidad, es mucho más compleja y esconde toda una jerarquía de subfases. A través de la experiencia acumulada en proyectos de minería de datos se han ido desarrollando metodologías que permiten gestionar esta complejidad de una manera más o menos uniforme.
Técnicas de minería de datos

Como ya se ha comentado, las técnicas de la minería de datos provienen de la Inteligencia artificial y de la estadística, dichas técnicas, no son más que algoritmos, más o menos sofisticados que se aplican sobre un conjunto de datos para obtener unos resultados.

Las técnicas más representativas son:
Redes neuronales.- Son un paradigma de aprendizaje y procesamiento automático inspirado en la forma en que funciona el sistema nervioso de los animales. Se trata de unsistema de interconexión de neuronas en una red que colabora para producir un estímulo de salida. Algunos ejemplos de red neuronal son:
El Perceptrón.
El Perceptrón multicapa.
Los Mapas Autoorganizados, también conocidos como redes de Kohonen.
Regresión lineal.- Es la más utilizada para formar relaciones entre datos. Rápida y eficaz pero insuficiente en espacios multidimensionales donde puedan relacionarse más de 2 variables.
Árboles de decisión.- Un árbol de decisión es un modelo de predicción utilizado en el ámbito de la inteligencia artificial, dada una base de datos se construyen estos diagramas de construcciones lógicas, muy similares a los sistemas de predicción basados en reglas, que sirven para representar y categorizar una serie de condiciones que suceden de forma sucesiva, para la resolución de un problema. Ejemplos:
Algoritmo ID3.
Algoritmo C4.5.
Modelos estadísticos.- Es una expresión simbólica en forma de igualdad o ecuación que se emplea en todos los diseños experimentales y en la regresión para indicar los diferentes factores que modifican la variable de respuesta.
Agrupamiento o Clustering.- Es un procedimiento de agrupación de una serie de vectores según criterios habitualmente de distancia; se tratará de disponer los vectores de entrada de forma que estén más cercanos aquellos que tengan características comunes. Ejemplos:
Algoritmo K-means.
Algoritmo K-medoids.
Reglas de asociación.- Se utilizan para descubrir hechos que ocurren en común dentro de un determinado conjunto de datos.

Según el objetivo del análisis de los datos, los algoritmos utilizados se clasifican en supervisados y no supervisados (Weiss y Indurkhya, 1998):
Algoritmos supervisados (o predictivos): predicen un dato (o un conjunto de ellos) desconocido a priori, a partir de otros conocidos.
Algoritmos no supervisados (o del descubrimiento del conocimiento): se descubren patrones y tendencias en los datos.
Ejemplos de uso de la minería de datos
Negocios

La minería de datos puede contribuir significativamente en las aplicaciones de administración empresarial basada en la relación con el cliente. En lugar de contactar con el cliente de forma indiscriminada a través de un centro de llamadas o enviando cartas, sólo se contactará con aquellos que se perciba que tienen una mayor probabilidad de responder positivamente a una determinada oferta o promoción.

Por lo general, las empresas que emplean minería de datos ven rápidamente el retorno de la inversión, pero también reconocen que el número de modelos predictivos desarrollados puede crecer muy rápidamente.

En lugar de crear modelos para predecir qué clientes pueden cambiar, la empresa podría construir modelos separados para cada región y/o para cada tipo de cliente. También puede querer determinar qué clientes van a ser rentables durante una ventana de tiempo (una quincena, un mes, …) y sólo enviar las ofertas a las personas que es probable que sean rentables. Para mantener esta cantidad de modelos, es necesario gestionar las versiones de cada modelo y pasar a una minería de datos lo más automatizada posible.
Hábitos de compra en supermercados

El ejemplo clásico de aplicación de la minería de datos tiene que ver con la detección de hábitos de compra en supermercados. Un estudio muy citado detectó que los viernes había una cantidad inusual mente elevada de clientes que adquirían a la vez pañales y cerveza. Se detectó que se debía a que dicho día solían acudir al supermercado padres jóvenes cuya perspectiva para el fin de semana consistía en quedarse en casa cuidando de su hijo y viendo la televisión con una cerveza en la mano. El supermercado pudo incrementar sus ventas de cerveza colocándolas próximas a los pañales para fomentar las ventas compulsivas.
Patrones de fuga

Un ejemplo más habitual es el de la detección de patrones de fuga. En muchas industrias —como la banca, las telecomunicaciones, etc.— existe un comprensible interés en detectar cuanto antes aquellos clientes que puedan estar pensando en rescindir sus contratos para, posiblemente, pasarse a la competencia. A estos clientes —y en función de su valor— se les podrían hacer ofertas personalizadas, ofrecer promociones especiales, etc., con el objetivo último de retenerlos. La minería de datos ayuda a determinar qué clientes son los más proclives a darse de baja estudiando sus patrones de comportamiento y comparándolos con muestras de clientes que, efectivamente, se dieron de baja en el pasado.
Fraudes

Un caso análogo es el de la detección de transacciones de lavado de dinero o de fraude en el uso de tarjetas de crédito o de servicios de telefonía móvil e, incluso, en la relación de los contribuyentes con el fisco. Generalmente, estas operaciones fraudulentas o ilegales suelen seguir patrones característicos que permiten, con cierto grado de probabilidad, distinguirlas de las legítimas y desarrollar así mecanismos para tomar medidas rápidas frente a ellas.
Recursos humanos

La minería de datos también puede ser útil para los departamentos de recursos humanos en la identificación de las características de sus empleados de mayor éxito. La información obtenida puede ayudar a la contratación de personal, centrándose en los esfuerzos de sus empleados y los resultados obtenidos por éstos. Además, la ayuda ofrecida por las aplicaciones para Dirección estratégica en una empresa se traducen en la obtención de ventajas a nivel corporativo, tales como mejorar el margen de beneficios o compartir objetivos; y en la mejora de las decisiones operativas, tales como desarrollo de planes de producción o gestión de mano de obra.
Comportamiento en Internet

También es un área en boga el del análisis del comportamiento de los visitantes —sobre todo, cuando son clientes potenciales— en una página de Internet. O la utilización de la información —obtenida por medios más o menos legítimos— sobre ellos para ofrecerles propaganda adaptada específicamente a su perfil. O para, una vez que adquieren un determinado producto, saber inmediatamente qué otro ofrecerle teniendo en cuenta la información histórica disponible acerca de los clientes que han comprado el primero.
Terrorismo

La minería de datos ha sido citada como el método por el cual la unidad Able Danger del Ejército de los EE. UU. había identificado al líder de los atentados del 11 de septiembre de 2001, Mohammed Atta, y a otros tres secuestradores del “11-S” como posibles miembros de una célula de Al Qaeda que operan en los EE. UU. más de un año antes del ataque. Se ha sugerido que tanto la Agencia Central de Inteligencia y sus homóloga canadiense, Servicio de Inteligencia y Seguridad Canadiense, también han empleado este método.
Juegos

Desde comienzos de la década de 1960, con la disponibilidad de oráculos para determinados juegos combinacionales, también llamados finales de juego de tablero (por ejemplo, para las tres en raya o en finales de ajedrez) con cualquier configuración de inicio, se ha abierto una nueva área en la minería de datos que consiste en la extracción de estrategias utilizadas por personas para estos oráculos. Los planteamientos actuales sobre reconocimiento de patrones, no parecen poder aplicarse con éxito al funcionamiento de estos oráculos. En su lugar, la producción de patrones perspicaces se basa en una amplia experimentación con bases de datos sobre esos finales de juego, combinado con un estudio intensivo de los propios finales de juego en problemas bien diseñados y con conocimiento de la técnica (datos previos sobre el final del juego). Ejemplos notables de investigadores que trabajan en este campo son Berlekamp en el juego de puntos-y-cajas (o Timbiriche) y John Nunn en finales de ajedrez.
Ciencia e Ingeniería

En los últimos años la minería de datos se está utilizando ampliamente en diversas áreas relacionadas con la ciencia y la ingeniería. Algunos ejemplos de aplicación en estos campos son:
Genética

En el estudio de la genética humana, el objetivo principal es entender la relación cartográfica entre las partes y la variación individual en las secuencias del ADN humano y la variabilidad en la susceptibilidad a las enfermedades. En términos más llanos, se trata de saber cómo los cambios en la secuencia de ADN de un individuo afectan al riesgo de desarrollar enfermedades comunes (como por ejemplo el cáncer). Esto es muy importante para ayudar a mejorar el diagnóstico, prevención y tratamiento de las enfermedades. La técnica de minería de datos que se utiliza para realizar esta tarea se conoce como “reducción de dimensionalidad multifactorial“.
Ingeniería eléctrica

En el ámbito de la ingeniería eléctrica, las técnicas minería de datos han sido ampliamente utilizadas para monitorizar las condiciones de las instalaciones de alta tensión. La finalidad de esta monitorización es obtener información valiosa sobre el estado del aislamiento de los equipos. Para la vigilancia de las vibraciones o el análisis de los cambios de carga en transformadores se utilizan ciertas técnicas para agrupación de datos (clustering) tales como los Mapas Auto-Organizativos (SOM, Self-organizing map). Estos mapas sirven para detectar condiciones anormales y para estimar la naturaleza de dichas anomalías.
Análisis de gases

También se han aplicado técnicas de minería de datos para el análisis de gases disueltos (DGA, Dissolved gas analysis) en transformadores eléctricos. El análisis de gases disueltos se conoce desde hace mucho tiempo como herramienta para diagnosticar transformadores. Los Mapas Auto-Organizativos (SOM) se utilizan para analizar datos y determinar tendencias que podrían pasarse por alto utilizando las técnicas clásicas DGA.
Minería de datos y otras disciplinas análogas

Suscita cierta polémica el definir las fronteras existentes entre la minería de datos y disciplinas análogas, como pueden serlo la estadística, la inteligencia artificial, etc. Hay quienes sostienen que la minería de datos no es sino estadística envuelta en una jerga de negocios que la conviertan en un producto vendible. Otros, en cambio, encuentran en ella una serie de problemas y métodos específicos que la hacen distinta de otras disciplinas.

El hecho es, que en la práctica la totalidad de los modelos y algoritmos de uso general en minería de datos —redes neuronales, árboles de regresión y clasificación, modelos logísticos, análisis de componentes principales, etc.— gozan de una tradición relativamente larga en otros campos.
De la estadística

Ciertamente, la minería de datos bebe de la estadística, de la que toma las siguientes técnicas:
Análisis de varianza, mediante el cual se evalúa la existencia de diferencias significativas entre las medias de una o más variables continuas en poblaciones distintos.
Regresión: define la relación entre una o más variables y un conjunto de variables predictoras de las primeras.
Prueba chi-cuadrado: por medio de la cual se realiza el contraste la hipótesis de dependencia entre variables.
Análisis de agrupamiento o clustering: permite la clasificación de una población de individuos caracterizados por múltiples atributos (binarios, cualitativos o cuantitativos) en un número determinado de grupos, con base en las semejanzas o diferencias de los individuos.
Análisis discriminante: permite la clasificación de individuos en grupos que previamente se han establecido, permite encontrar la regla de clasificación de los elementos de estos grupos, y por tanto una mejor identificación de cuáles son las variables que definan la pertenencia al grupo.
Series de tiempo: permite el estudio de la evolución de una variable a través del tiempo para poder realizar predicciones, a partir de ese conocimiento y bajo el supuesto de que no van a producirse cambios estructurales.
la informática

De la informática toma las siguientes técnicas:
Algoritmos genéticos: Son métodos numéricos de optimización, en los que aquella variable o variables que se pretenden optimizar junto con las variables de estudio constituyen un segmento de información. Aquellas configuraciones de las variables de análisis que obtengan mejores valores para la variable de respuesta, corresponderán a segmentos con mayor capacidad reproductiva. A través de la reproducción, los mejores segmentos perduran y su proporción crece de generación en generación. Se puede además introducir elementos aleatorios para la modificación de las variables (mutaciones). Al cabo de cierto número de iteraciones, la población estará constituida por buenas soluciones al problema de optimización, pues las malas soluciones han ido descartándose, iteración tras iteración.
Inteligencia Artificial: Mediante un sistema informático que simula un sistema inteligente, se procede al análisis de los datos disponibles. Entre los sistemas de Inteligencia Artificial se encuadrarían los Sistemas Expertos y las Redes Neuronales.
Sistemas Expertos: Son sistemas que han sido creados a partir de reglas prácticas extraídas del conocimiento de expertos. Principalmente a base de inferencias o de causa-efecto.
Sistemas Inteligentes: Son similares a los sistemas expertos, pero con mayor ventaja ante nuevas situaciones desconocidas para el experto.
Redes neuronales: Genéricamente, son métodos de proceso numérico en paralelo, en el que las variables interactúan mediante transformaciones lineales o no lineales, hasta obtener unas salidas. Estas salidas se contrastan con los que tenían que haber salido, basándose en unos datos de prueba, dando lugar a un proceso de retroalimentaciónmediante el cual la red se reconfigura, hasta obtener un modelo adecuado.
Minería de datos basada en teoría de la información

Todas las herramientas tradicionales de minería de datos asumen que los datos que usarán para construir los modelos contienen la información necesaria para lograr el propósito buscado: obtener suficiente conocimiento que pueda ser aplicado al negocio (o problema) para obtener un beneficio (o solución).

El inconveniente es que esto no es necesariamente cierto. Además, existe otro problema mayor aún. Una vez construido el modelo no es posible conocer si el mismo ha capturado toda la información disponible en los datos. Por esta razón la práctica común es realizar varios modelos con distintos parámetros para ver si alguno logra mejores resultados.

Un enfoque relativamente nuevo al análisis de datos soluciona estos problemas haciendo que la práctica de la minería de datos se parezca más a una ciencia que a un arte.

En 1948 Claude Shannon publicó un trabajo llamado “Una Teoría Matemática de la Comunicación”. Posteriormente esta pasó a llamarse Teoría de la información y sentó las bases de la comunicación y la codificación de la información. Shannon propuso una manera de medir la cantidad de información a ser expresada en bits.

En 1999 Dorian Pyle publicó un libro llamado “Data Preparation for Data Mining” en el que propone una manera de usar la Teoría de la Información para analizar datos. En este nuevo enfoque, una base de datos es un canal que transmite información. Por un lado está el mundo real que captura datos generados por el negocio. Por el otro están todas las situaciones y problemas importantes del negocio. Y la información fluye desde el mundo real y a través de los datos, hasta la problemática del negocio.

Con esta perspectiva y usando la Teoría de la información, es posible medir la cantidad de información disponible en los datos y qué porción de la misma podrá utilizarse para resolver la problemática del negocio. Como un ejemplo práctico, podría encontrarse que los datos contienen un 65% de la información necesaria para predecir qué cliente rescindirán sus contratos. De esta manera, si el modelo final es capaz de hacer predicciones con un 60% de acierto, se puede asegurar que la herramienta que generó el modelo hizo un buen trabajo capturando la información disponible. Ahora, si el modelo hubiese tenido un porcentaje de aciertos de solo el 10%, por ejemplo, entonces intentar otros modelos o incluso con otras herramientas podría valer la pena.

La capacidad de medir información contenida en los datos tiene otras ventajas importantes.

Al analizar los datos desde esta nueva perspectiva se genera un mapa de información que hace innecesario la preparación previa de los datos, una tarea absolutamente imprescindible si se desea buenos resultados, pero que lleva enorme cantidad de tiempo.

Es posible seleccionar un grupo de variables óptimo que contenga la información necesaria para realizar un modelo de predicción.

Una vez que las variables son procesadas con el fin de crear el mapa de información y luego seleccionadas aquellas que aportan la mayor información, la elección de la herramienta que se usará para crear el modelo deja de tener importancia, ya que el mayor trabajo fue realizado en los pasos previos.
Tendencias

La Minería de Datos ha sufrido transformaciones en los últimos años de acuerdo con cambios tecnológicos, de estrategias de marketing, la extensión de los modelos de compra en línea, etc. Los más importantes de ellos son:
La importancia que han cobrado los datos no estructurados (texto, páginas de Internet, etc.).
La necesidad de integrar los algoritmos y resultados obtenidos en sistemas operacionales, portales de Internet, etc.
La exigencia de que los procesos funcionen prácticamente en línea (por ejemplo, que frente a un fraude con una tarjeta de crédito).
Los tiempos de respuesta. El gran volumen de datos que hay que procesar en muchos casos para obtener un modelo válido es un inconveniente; esto implica grandes cantidades de tiempo de proceso y hay problemas que requieren una respuesta en tiempo real.
Herramientas de software

Existen muchas herramientas de software para el desarrollo de modelos de minería de datos tanto libres como comerciales como, por ejemplo:KXEN
KNIME
Orange Powerhouse
Quiterian
RapidMiner
R
SPSS Clementine SAS Enterprise Miner
STATISTICA Data Miner
Weka
KEEL

1.1 Proyectos en Minería de Datos

Los pasos a seguir para la realización de un proyecto de minería de datos son siempre los mismos, independientemente de la técnica específica de extracción de conocimiento usada.



Figura 2: Fases dentro de un proceso de Minería de Datos

El proceso de minería de datos pasa por las siguientes fases:
Comprensión del negocio y del problema que se quiere resolver.El formato de los datos contenidos en la fuente de datos nunca es el correcto, y la mayoría de las veces no es posible ni siquiera utilizar algúnalgoritmo de minería sobre los datos iniciales sin que requieran alguna transformación. En este paso se filtran los datos con el objetivo de eliminar valores incorrectos, no válidos o desconocidos; según las necesidades y el algoritmo a utilizar. Además se obtienen muestras de los datos en busca de mayor velocidad y eficiencia de los algoritmos, o se reducen el número de valores posibles para los atributos de análisis.
Filtrado de datos:
Selección de variables:

Después de realizar la limpieza de los datos, en la mayoría de los casos se tiene una gran cantidad de variables o atributos. La selección de características reduce el tamaño de los datos, sin apenas sacrificar la calidad del modelo de conocimiento obtenido del proceso de minería; seleccionando las variables más influyentes en el problema.

Los métodos para la selección de los atributos que más influencia tienen en el problema son básicamente dos:
Aquellos basados en la elección de los mejores atributos del problema.
Aquellos que buscan variables independientes mediante tests de sensibilidad, algoritmos de distancia o heurísticos.
Extracción de Conocimiento

La extracción del conocimiento es la esencia de la Minería de Datos donde mediante una técnica, se obtiene un modelo de conocimiento, que representa patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociación entre dichas variables. Los modelosque se generan son expresados de diversas formas:
reglas
árboles
redes neuronales

También pueden usarse varias técnicas a la vez para generar distintos modelos, aunque generalmente cada técnica obliga a un pre-procesado diferente de los datos.
Interpretación y Evaluación

Una vez obtenido el modelo, se procede a su validación; donde se comprueba que las conclusiones que arroja son válidas y suficientemente satisfactorias. En el caso de haber obtenido varios modelos mediante el uso de distintas técnicas, se deben comparar los modelos para buscar el que se ajuste mejor al problema. Si ninguno de los modelos alcanza los resultados esperados, debe alterarse alguno de los pasos anteriores para generar nuevosmodelos.
2. Herramientas para la minería de Datos. SQL Server 2005.

Microsoft SQL Server 2005 incorpora la herramienta SQL Analysis Server estableciendo nuevas facilidades para realizar Minería de Datos, entre las que se cuentan:
El procesamiento de los modelos de una misma estructura de minería ocurre en paralelo, en una sola lectura de los datos.
Proporciona más de 12 visores de resultados para los algoritmos que ayudarán a comprender mejor los patrones encontrados en el proceso de minería.
Proporciona gráficos de elevación, de beneficios y una matriz de clasificación que permite establecer una comparación de lo real con lo previsto; para contrastar y comparar la calidad de los modelos.
Posee un lenguaje para la creación de consultas de minería (DMX) similar al SQL que facilita la tarea de creación de aplicaciones de minería de datos.
Posee una interfaz gráfica para generar las consultas DMX.
Cuenta con los algoritmos de minería más avanzados: Naive Bayes, Clustering, Clústeres de Secuencia, Árboles de Decisión, Redes Neuronales, Series Temporales, Reglas de Asociación, Regresión Logística, y Regresión Lineal y minería de textos.
Marco de desarrollo para agregar nuevos algoritmos y también para construir visores propios para los modelos generados. [5] [6] [7] [8] [9] [10].
3. Metodologías de desarrollo para proyectos de Minería de Datos. CRISP-DM.

La metodología CRISP-DM [11] consiste en un conjunto de tareas descritas en cuatro niveles de abstracción: fase, tarea genérica, tarea especializada, e instancia de proceso, organizados de forma jerárquica en tareas que van desde el nivel más general hasta los casos más específicos.

Fase: Se le denomina fase al asunto o paso dentro del proceso.CRISP-DM consta de 6 fases: comprensión del negocio, comprensión de los datos, preparación de los datos, modelación, evaluación y explotación.

Tarea genérica: Cada fase esta formada por tareas genéricas, o sea, la tarea genérica es la descripción de las actividades que se realizan dentro de cada fase. Por ejemplo, la tarea Limpiar los datos es una tarea genérica.

Tarea especializada: La tarea especializada describe cómo se pueden llevar a cabo las tareas genéricas en situaciones específicas. Por ejemplo, la tarea Limpiar los datos tiene tareas especializadas, como limpiar valores numéricos, y limpiar valores categóricos.

Instancias de proceso: Las instancias de proceso son las acciones y resultados de las actividades realizadas dentro de cada fase del proyecto.

Las fases del proyecto de Minería de acuerdo a lo establecido por la metodología CRISP-DM interactúan entre ellas de forma iterativa durante el desarrollo del proyecto. La secuencia de las fases no siempre es ordenada, o en ocasiones si se determina al realizar la evaluación que los objetivos del negocio no se cumplieron se debe regresar y buscar las causas del problema para redefinirlo.
4. Resultados del Caso de Estudio.

El caso de estudio seleccionado para realizar el proyecto de KDD se refiere a la predicción de las notas de las asignaturas del primer año de los estudiantes de la UCI basado en las relaciones que se establecen entre el nivel de escolaridad de los padres, tipo de centro de procedencia, provincia y resultados académicos.

Los datos seleccionados para realizar el proyecto de Minería de Datos corresponden a la información personal y calificaciones en las asignaturas del primer curso escolar de los estudiantes de la UCI que actualmente cursan el segundo, tercero, cuarto y quinto año. Se utiliza la información del primer curso escolar ya que los estudiantes de primer año reciben mayor influencia de las variables a analizar como entradas para las predicciones.

Se utiliza una muestra aleatoria representativa del 90% de los datos para realizar el proyecto de KDD.

El proyecto fue desarrollado por siguiendo los lineamientos de la metodología CRISP-DM.
La UCI dispone de un Sistema Automatizado para la gestión académica de los estudiantes (AKADEMOS). En el mismo se almacena información personal y resultados académicos de los estudiantes en las diferentes asignaturas. El sistema brinda la utilidad de los reportes tradicionales que permiten obtener información de los estudiantes que han matriculado en la universidad.AKADEMOS es un sistema informático en el cual todos los involucrados (directivos, personal de secretaría, profesores y estudiantes) tienen un papel activo en el proceso de gestión académica. A partir de la información que brinda este sistema y con los test evaluativos que se realizan a los estudiantes antes de matricular en la universidad, en la UCI; específicamente en el Centro de Investigaciones por la Calidad de la Educación(CICE), se está desarrollando el proyecto “Perfeccionamiento del proceso de selección para nuevos ingresos al curso regular de la Universidad de Ciencias Informáticas”.Después de realizar entrevistas a usuarios, personal de la Dirección de Informatización de la UCI y de la Dirección del Centro de Investigaciónpor la Calidad de la Educación (CICE) en la Universidad de las Ciencias Informáticas; se definió el siguiente caso de estudio a realizar en el proyecto de KDD:Predecir las notas de las asignaturas del primer año de los estudiantes de la UCI basado en las relaciones que se establecen entre el nivel de escolaridad de los padres, tipo de centro de procedencia, provincia y resultados académicos.
Comprensión del negocio.Los datos utilizados pertenecen al período del 2001 hasta el 2006, específicamente a la información personal y académica de los estudiantes que eran matrícula de la UCI en esta etapa; tomando de estos la información histórica en su primer año en la universidad. La Base de Datos se encontraba en un servidor SQL Server 2000, por lo que fue necesario importarla para un servidor SQL Server 2005, en orden de poder utilizar las facilidades que brinda esta herramienta para la Minería de Datos.Para decidir que datos utilizar se realizó un estudio conjunto entre especialistas y desarrolladores; donde se analizó el contenido y la complejidad de la Base de Datos, de las tablas implicadas y sus relaciones; así como el tipo de datos de los atributos, sus posibles valores, significado en el negocio y relevancia dentro del mismo; además se comprobaron los atributos de entradas libres y si existían llaves repetidas.Sólo se tomaron en cuenta los resultados académicos del primer curso escolar; pues sobre estas existe mayor influencia de las variables centro de procedencia, provincia y nivel de escolaridad de los padres. Debido a los límites de la investigación no se seleccionaron todas las asignaturas de primer año, sino aquellas que se consideraron más relevantes, Matemática Discreta, Introducción a la Programación, Programación I, Matemática I y Algebra Lineal.Los atributos más importantes para el proyecto de Minería fueron analizados en el diseñador de vistas de origen de datos de Business Intelligence Development Studio y el editor de consultas del Management Studio. Con estas herramientas se estudiaron los atributos, sus valores y el comportamiento de los mismos.Se realizó una búsqueda de los posibles valores de los atributos, a partir de la fuente de datos con las herramientas de Microsoft Office WebComponents, con el objetivo de encontrar valores incorrectos que pudieran traer problemas en las predicciones, además para analizar cuales atributos podrían requerir discretización.
Comprensión de los datos.Toda la información necesaria para realizar la investigación se encuentra en la Base de Datos AKADEMOS por lo que no fue necesario integrar varios orígenes de datos. Los atributos seleccionados para realizar el proyecto de Minería correspondiente a los datos personales de los estudiantes se encontraban en varias vistas dentro de la Base de Datos.Con el objetivo de asociar en una sola tabla los datos personales de los estudiantes; en el Integration Services utilizando el componente Union Alll se obtuvo la tabla Datos Históricos a partir de las 4 vistas Hoja de matricula_108_e, Hoja de matricula_110_e, Hoja de matricula_112_e y Hoja de matricula_114_e donde se encuentra la información de los estudiantes matriculados en la Universidad en el período comprendido entre los años 2001 al 2006; como se observa en la figura 3.



Figura 3: Unión de los datos personales de los estudiantes.

A partir de la tabla que contiene las asignaturas pivoteadas y de la tabla donde se encuentran los datos personales de los estudiantes; se obtiene una nueva vista (Notas Datos) donde se asocia la información perteneciente a los mismos objetos.

Referente a los casos sobre los que se trabaja, los mismos fueron seleccionados de la tabla que contiene toda la información personal y académica de los estudiantes (Notas_Datos), utilizando el componente Percentage Sampling del SQL Server Integration Services (SSIS), en el proyecto se seleccionó el 90% de los datos.
Preparación de los datos.
Modelación

Para la realización de este paso se utilizaron las técnicas de Minería de Datos del SQL Server 2005, utilizando la herramienta SQL Server Business Intelligence Development Studio, específicamente SQL Server Analysis Services (SSAS).

A continuación se muestran las técnicas y visores a utilizar por cada objetivo de la Minería.Objetivo de Minería Técnica
1. Realizar una segmentación adecuada de los estudiantes, tomando como columnas de entrada la provincia, nivel de escolaridad de los padres, centro de procedencia y las notas de las asignaturas del primer año de la carrera.


2. Analizar los clústeres obtenidos de acuerdo a las notas que predominan en cada grupo; como paso analítico para el próximo objetivo.Algoritmo de clustering de Microsoft
Visor de clústeres de Microsoft
Diagrama del clúster
Perfiles del clúster
Características del clúster
Distinción del clúster

.3. Obtener reglas que permitan descubrir la influencia que tiene la provincia, nivel de escolaridad de los padres y centro de procedencia de los estudiantes en sus resultados académicos; y permitan predecir la nota final en cada asignatura analizada.Algoritmo de Árboles de Decisión de Microsoft
Visor de árboles de decisión de Microsoft.
Red de dependencia
Gráfico de elevación
Matriz de Clasificación

Tabla 1: Técnicas y visores a aplicar por objetivos de la minería.

Diseño de pruebas.

El diseño de las pruebas sobre los datos se realizó utilizando la herramienta SQL Server Integration Services, empleando la técnica de validación cruzada.

SQL Server Integration Services tiene componentes que permiten obtener muestras aleatorias representativas según un porciento de los datos o según determinada cantidad de filas, estos componentes son el Percentage Sampling y Row Sampling y proporcionan, además otros componentes para unir varias muestras desde diversos orígenes o fuentes de datos, realizar consultas SQL y guardar los resultados obtenidos en diversos destinos.

Utilizando estos componentes se realizaron los diseños de casos de prueba según la técnica de Validación Cruzada; la cual consiste en dividir los datos en 10 grupos o muestras y realizar 10 corridas o iteraciones donde en cada una se combinan 9 muestras para obtener una muestra de experimento y se deja una como muestra de prueba. De esta forma todas las muestras son utilizadas como experimento y como prueba. Al final se selecciona el experimento sobre el cual se realicen mejores predicciones, o sea donde el error sea menor.

En la siguiente figura se muestra el flujo de control del paquete de pruebas del Integration Services, utilizando validación cruzada.



Figura 5: Flujo de Control del paquete de pruebas utilizando validación cruzada

Valoración del modelo Árboles Predicción Nota en el Experimento #3

A partir de los resultados obtenidos por los modelos que se explican en la fase de Evaluación; la predicción logró resolver con éxito los siguientes por cientos de los casos de entrada según las asignaturas y notas:
En la asignatura Algebra Lineal se resuelven con éxito el 26% de los casos donde la nota es 5 con probabilidad de 0.76; el 40% donde la nota es 4 con probabilidad entre 0.74 y 0.96; el 28% para la nota de 3 con probabilidad mayor que 0.75; y el 4% para la nota 2 con probabilidad de 0.50.
En la asignatura Introducción a la Programación se resuelven con éxito el 35% de los casos donde la nota es 5 con probabilidad de 0.78; el 22% donde la nota es 4 con probabilidad de 0.60; el 37% para la nota de 3 con probabilidad mayor que 0.72 y el 13% para la nota 2 con probabilidad entre 0.52 y 0.82.
En la asignatura Matemática Discreta se resuelven con éxito el 21% de los casos donde la nota es 5 con probabilidad mayor que 0.72; el 38% donde la nota es 4 con probabilidad entre 0.65 y 0.73; el 37% para la nota de 3 con probabilidad entre 0.85 y 0.95 y el 4% para la nota 2 con probabilidad de 0.31.
En la asignatura Matemática I se resuelven con éxito el 18% de los casos donde la nota es 5 con probabilidad de 0.67; el 31% donde la nota es 4 con probabilidad de 0.53; el 46% para la nota de 3 con probabilidad entre 0.85 y 0.93 y el 14% para la nota 2 con probabilidad de 0.65.
En la asignatura Programación I se resuelven con éxito el 21% de los casos donde la nota es 5 con probabilidad entre 0.68 y 0.93; el 24% donde la nota es 4 con probabilidad entre 0.72 y 0.87; el 50% para la nota de 3 con probabilidad de 0.87 y el 9% para la nota 2 con probabilidad mayor que 0.43.

La predicción es altamente efectiva, las probabilidades son altas en la mayoría de los casos.

Evaluación

En esta fase se evalúa el modelo escogido, no desde el punto de vista general, sino del cumplimiento de los objetivos del negocio. Se debe revisar el proceso teniendo en cuenta los resultados obtenidos, para repetir alguna fase en caso que se hayan cometido errores. Si el modelo generado es válido en función de los criterios de éxito establecidos en la primera fase y de la precisión del mismo, se procede al despliegue de éste en caso de requerirse.

Se mostrarán a continuación algunas de las reglas obtenidas, a partir de los modelos de árboles de decisión generados para cada asignatura por nota.Algebra Lineal
Nota Reglas Prob
5 TC_De Procedencia <> ‘DEPORTE‘
TC_De Procedencia = ‘DEPORTE’ 0.76


0.524
Provincia = Pinar del Río
Provincia <> Pinar del Río
Provincia <> Pinar del Río y NE del Padre <> Técnico medio
Provincia <> Pinar del Río y NE del Padre = Técnico medio

0.96

0.77

0.74

0.893
NE_Del Padre = ‘Preuniversitario’
NE_Del Padre <> ‘Preuniversitario’
NE_Del Padre <> ‘Preuniversitario’ y NE_De La Madre <> ‘Secundaria’
NE_Del Padre <> ‘Preuniversitario’ y NE_De La Madre = ‘Secundaria’

0.93

0.75

0.73

0.792
No tiene influencia ninguno de los factores analizados sobre la nota

0.50

Tabla 2: Reglas obtenidas para la asignatura Algebra LinealProgramación I
Nota Reglas Prob
5 TC_De Procedencia = ‘DEPORTE’
TC_De Procedencia <> ‘DEPORTE’
TC_De Procedencia <> ‘DEPORTE’ y NE_Del Padre <> ‘Ninguno Terminado’ y Provincia = ‘Holguín’
TC_De Procedencia <> ‘DEPORTE’ y NE_Del Padre <> ‘Ninguno Terminado’ y Provincia <> ‘Holguín’ 0.93


0.68

0.69

0.684
T C_De Procedencia = ‘IPUEC’
T C_De Procedencia <> ‘IPUEC’
T C_De Procedencia <> ‘DEPORTE’
T C_De Procedencia = ‘DEPORTE’

0.87

0.72

0.72

0.483
No tiene influencia ninguno de los factores analizados sobre la nota

0.842
T C_De Procedencia = IPUEC
T C_De Procedencia <> IPUEC

0.53

Tabla 3: Reglas obtenidas para la asignatura Programación IIntroducción a la Programación
Nota Reglas Prob
5 No tiene influencia ninguno de los factores analizados sobre la nota 0.78
4 No tiene influencia ninguno de los factores analizados sobre la nota 0.60
3 Provincia = ‘Ciego de Avila’
Provincia <> ‘Ciego de Avila’ 0.72


0.782
TC_De Procedencia <> IPUEC
TC_De Procedencia = IPUEC y NE_De la madre <> Universitario
TC_De Procedencia = IPUEC and NE_De la madre = Universitario

0.52

0.82

0.52

Tabla 4: Reglas obtenidas para la asignatura Introducción a la programación.

Al analizar los resultados obtenidos se comprobó que las variables que más influyen sobre los resultados académicos de los estudiantes en su primer curso en la Universidad; es el tipo de centro de procedencia y la provincia de origen

Resumen de evaluación de los resultados

A continuación se muestra una tabla con el por ciento estimado de cumplimiento del objetivo del negocio basado en los criterios de éxito.Criterios de éxito del negocio Cumplimiento estimado
Obtener un modelo de conocimiento y comprobar que las conclusiones obtenidas son válidas o útiles 100%
Desarrollar el caso de estudio utilizando las herramientas de SQL Server 2005 para minería de datos 100%
Realizar un proyecto de KDD guiado por la metodología CRISP-DM y la documentación de cada una da las fases 100%
Interpretar los resultados de la relación que existe entre la procedencia social o académica de los estudiantes y sus resultados académicos actuales 100%


Tabla 5: Estimado de cumplimiento de los criterios de éxito del negocio.

Se estima que fue cumplido el objetivo del negocio correspondiente al descubrimiento de patrones ocultos en los datos; que permitan predecir los resultados académicos de los estudiantes de la UCI, basado en las relaciones que se establecen entre Centro de Procedencia – Provincia – Nivel de escolaridad de los padres, con las Notas de las asignaturas recibidas en el primer año de la carrera.
Algoritmos para Mineria de Datos con SQL Server 2008

Hace unas semanas atras conversaba con un amigo sobre Data mining y me hizo la interrogante que muchos nos hemos echo en algun momento de nuestro aprendizaje .. Cuando debo utilizar tal o cual algoritmo y en que casos?…  yo siempre respondia “depende” y pues retomando la lectura de Microsoft Technet para SSAS estaba leyendo lo que les pongo a continuacion a manera de un Copy & Paste de la info que Microsoft.

Los modelos de minería de datos pueden predecir valores, generar resúmenes de datos y buscar correlaciones ocultas. Para ayudarle a seleccionar los algoritmos para su solución de minería de datos, la siguiente tabla proporciona sugerencias sobre qué algoritmos usar en tareas específicas.Tarea Algoritmos de Microsoft que se pueden usar
Predecir un atributo discreto.


Por ejemplo, predecir si el destinatario de una campaña de envío de correo directo adquirirá un producto.Algoritmo de árboles de decisión de Microsoft

Algoritmo Bayes naive de Microsoft

Algoritmo de clústeres de Microsoft (Analysis Services – Minería de datos)

Algoritmo de red neuronal de Microsoft (Analysis Services – Minería de datos)Predecir un atributo continuo.

Por ejemplo, prever las ventas del año próximo.Algoritmo de árboles de decisión de Microsoft

Algoritmo de serie temporal de Microsoft (Analysis Services – Minería de datos)Predecir una secuencia.

Por ejemplo, realizar un análisis clickstream del sitio web de una empresa.Algoritmo de agrupación en clústeres de secuencia de MicrosoftBuscar grupos de elementos comunes en las transacciones.

Por ejemplo, utilizar el análisis de la cesta de la compra para sugerir a un cliente la compra de productos adicionales.Algoritmo de asociación de Microsoft

Algoritmo de árboles de decisión de MicrosoftBuscar grupos de elementos similares.

Por ejemplo, segmentar datos demográficos en grupos para comprender mejor las relaciones entre atributos.Algoritmo de clústeres de Microsoft (Analysis Services – Minería de datos)

Algoritmo de agrupación en clústeres de secuencia de Microsoft
Algoritmos de minería de datos
(Analysis Services:Minería de datos)
SQL Server 2008
El algoritmo de minería de datos es el mecanismo que crea un modelo de minería de datos. Para crear un modelo, un algoritmo analiza primero un conjunto de datos y luego busca patrones y tendencias específicos. El algoritmo utiliza los resultados de este análisis para definir los parámetros del modelo de minería de datos. A continuación, estos parámetros se aplican en todo el conjunto de datos para extraer patrones procesables y estadísticas detalladas.

El modelo de minería de datos que crea un algoritmo puede tomar diversas formas, incluyendo:
Un conjunto de reglas que describen cómo se agrupan los productos en una transacción.
Un árbol de decisión que predice si un cliente determinado comprará un producto.
Un modelo matemático que predice las ventas.
Un conjunto de clústeres que describe cómo se relacionan los casos de un conjunto de datos.

MicrosoftSQL ServerAnalysis Services proporciona varios algoritmos que puede usar en las soluciones de minería de datos. Estos algoritmos son un subconjunto de todos los algoritmos que pueden utilizarse en la minería de datos. También puede utilizar algoritmos de minería de datos desarrollados por terceros que cumplan la especificación OLE DB para minería de datos.
 Tipos de algoritmos de minería de datos


Analysis Services incluye los siguientes tipos de algoritmos:
Algoritmos de clasificación, que predicen una o más variables discretas, basándose en otros atributos del conjunto de datos. Un ejemplo de algoritmo de clasificación es el Algoritmo de árboles de decisión de Microsoft.
Algoritmos de regresión, que predicen una o más variables continuas, como las pérdidas o los beneficios, basándose en otros atributos del conjunto de datos. Un ejemplo de algoritmo de regresión es el Algoritmo de serie temporal de Microsoft.
Algoritmos de segmentación, que dividen los datos en grupos, o clústeres, de elementos que tienen propiedades similares. Un ejemplo de algoritmo de segmentación es el Algoritmo de clústeres de Microsoft.
Algoritmos de asociación, que buscan correlaciones entre diferentes atributos de un conjunto de datos. La aplicación más común de esta clase de algoritmo es la creación de reglas de asociación, que pueden utilizarse en un análisis de la cesta de compra. Un ejemplo de algoritmo de asociación es el Algoritmo de asociación de Microsoft.
Algoritmos de análisis de secuencias, que resumen secuencias o episodios frecuentes en los datos, como un flujo de rutas Web. Un ejemplo de algoritmo de análisis de secuencias es el Algoritmo de agrupación en clústeres de secuencia de Microsoft.
 Aplicar los algoritmos


La elección del mejor algoritmo para una tarea empresarial específica puede ser un desafío. Aunque puede utilizar diferentes algoritmos para realizar la misma tarea, cada uno de ellos genera un resultado diferente, y algunos pueden generar más de un tipo de resultado. Por ejemplo, puede usar el algoritmo Árboles de decisión de Microsoft no sólo para la predicción, sino también como una forma de reducir el número de columnas de un conjunto de datos, ya que el árbol de decisión puede identificar las columnas que no afectan al modelo de minería de datos final.

Tampoco es necesario usar los algoritmos de modo independiente. En una única solución de minería de datos se pueden usar algunos algoritmos para explorar datos y, posteriormente, usar otros algoritmos para predecir un resultado específico a partir de esos datos. Por ejemplo, puede utilizar un algoritmo de agrupación en clústeres, que reconoce patrones, para dividir los datos en grupos que sean más o menos homogéneos, y luego usar los resultados para crear un mejor modelo de árbol de decisión. Puede utilizar varios algoritmos dentro de una solución para realizar tareas independientes, por ejemplo, usar un algoritmo de árbol de regresión para obtener información de previsiones financieras y un algoritmo basado en reglas para llevar a cabo un análisis de la cesta de compra.

Los modelos de minería de datos pueden predecir valores, generar resúmenes de datos y buscar correlaciones ocultas. Para ayudarle a seleccionar los algoritmos para su solución de minería de datos, la siguiente tabla proporciona sugerencias sobre qué algoritmos usar en tareas específicas.Tarea Algoritmos de Microsoft que se pueden usar
Predecir un atributo discreto.Por ejemplo, predecir si el destinatario de una campaña de envío de correo directo adquirirá un producto. Algoritmo de árboles de decisión de MicrosoftAlgoritmo Bayes naive de MicrosoftAlgoritmo de clústeres de MicrosoftAlgoritmo de red neuronal de Microsoft
Predecir un atributo continuo.Por ejemplo, prever las ventas del año próximo. Algoritmo de árboles de decisión de MicrosoftAlgoritmo de serie temporal de Microsoft
Predecir una secuencia.Por ejemplo, realizar un análisis clickstream del sitio web de una empresa. Algoritmo de agrupación en clústeres de secuencia de Microsoft
Buscar grupos de elementos comunes en las transacciones.Por ejemplo, utilizar el análisis de la cesta de la compra para sugerir a un cliente la compra de productos adicionales. Algoritmo de asociación de MicrosoftAlgoritmo de árboles de decisión de Microsoft
Buscar grupos de elementos similares.Por ejemplo, segmentar datos demográficos en grupos para comprender mejor las relaciones entre atributos. Algoritmo de clústeres de MicrosoftAlgoritmo de agrupación en clústeres de secuencia de Microsoft


Debido a que cada modelo devuelve un tipo de resultado diferente, Analysis Services proporciona un visor independiente para cada algoritmo. Cuando se examina un modelo de minería de datos en Analysis Services, el modelo se muestra en la ficha Visor de modelos de minería de datos del Diseñador de minería de datos, que usa el visor adecuado para el modelo.
 Detalles del algoritmo


En la tabla siguiente se proporcionan vínculos a los tipos de información disponible para cada algoritmo:
Descripción básica del algoritmo: proporciona una explicación básica de lo que el algoritmo hace y cómo funciona, junto con un escenario empresarial donde podría resultar útil.
Referencia técnica: muestra los parámetros que pueden establecerse para controlar el comportamiento del algoritmo y personalizar los resultados en el modelo. Proporciona detalles técnicos adicionales sobre la implementación del algoritmo, sugerencias de rendimiento y requisitos de los datos.
Consultar un modelo: proporciona ejemplos de consultas que puede utilizar con cada tipo de modelo.Puede consultar un modelo para obtener más información sobre los patrones que contiene o para realizar predicciones basándose en dichos patrones.
Contenido del modelo de minería de datos: describe cómo se almacena la información en una estructura común para todos los tipos de modelos y explica cómo interpretarla. Una vez generado un modelo, se puede explorar usando los visores proporcionados por BI Development Studio o se pueden escribir consultas que devuelvan información directamente del contenido del modelo usando DMX.Descripción básica del algoritmo Referencia técnica Consultar Contenido del modelo de minería de datos
Algoritmo de asociación de Microsoft Referencia técnica del algoritmo de asociación de Microsoft - Consultar un modelo de asociación (Analysis Services – Minería de datos) Contenido del modelo de minería de datos para los modelos de asociación (Analysis Services – Minería de datos)
Algoritmo de clústeres de Microsoft Referencia técnica del algoritmo de clústeres de Microsoft Consultar un modelo de agrupación en clústeres (Analysis Services – Minería de datos) Contenido del modelo de minería de datos para los modelos de agrupación en clústeres (Analysis Services – Minería de datos)
Algoritmo de árboles de decisión de Microsoft Referencia técnica del algoritmo de árboles de decisión de Microsoft Consultar un modelo de árboles de decisión (Analysis Services – Minería de datos) Contenido del modelo de minería de datos para los modelos de árboles de decisión (Analysis Services – Minería de datos)
Algoritmo de regresión lineal de Microsoft Referencia técnica del algoritmo de regresión lineal de Microsoft Consultar un modelo de regresión lineal (Analysis Services – Minería de datos) Contenido del modelo de minería de datos para los modelos de regresión lineal (Analysis Services – Minería de datos)
Algoritmo de regresión logística de Microsoft Referencia técnica del algoritmo de regresión logística de Microsoft Consultar un modelo de regresión logística (Analysis Services – Minería de datos) Contenido del modelo de minería de datos para los modelos de regresión logística (Analysis Services – Minería de datos)
Algoritmo Bayes naive de Microsoft Referencia técnica del algoritmo Bayes naive de Microsoft Consultar un modelo Bayes naive (Analysis Services: minería de datos) Contenido del modelo de minería de datos para los modelos Bayes naive (Analysis Services – Minería de datos)
Algoritmo de red neuronal de Microsoft Referencia técnica del algoritmo de red neuronal de Microsoft Consultar un modelo de red neuronal (Analysis Services – Minería de datos) Contenido del modelo de minería de datos para los modelos de red neuronal (Analysis Services – Minería de datos)
Algoritmo de agrupación en clústeres de secuencia de Microsoft Referencia técnica del algoritmo de clústeres de secuencia de Microsoft Consultar un modelo de clústeres de secuencia (Analysis Services – Minería de datos) Contenido del modelo de minería de datos para los modelos de clústeres de secuencia (Analysis Services – Minería de datos)
Algoritmo de serie temporal de Microsoft Referencia técnica del algoritmo de serie temporal de Microsoft Consultar un modelo de serie temporal (Analysis Services: minería de datos) Contenido del modelo de minería de datos para los modelos de serie temporal (Analysis Services – Minería de datos)

miércoles, 4 de abril de 2012

BDE - DATA WAREHOUSE


PROCESO DE NEGOCIO

Un proceso de negocio es un conjunto de tareas relacionadas lógicamente llevadas a cabo para lograr un resultado de negocio definido. Cada proceso de negocio tiene sus entradas, funciones y salidas. Las entradas son requisitos que deben tenerse antes de que una función pueda ser aplicada. Cuando una función es aplicada a las entradas de un método, tendremos ciertas salidas resultantes.
Es una colección de actividades estructurales relacionadas que producen un valor para la organización, sus inversores o sus clientes. Es, por ejemplo, el proceso a través del que una organización ofrece sus servicios a sus clientes.
Un proceso de negocio puede ser parte de un proceso mayor que lo abarque o bien puede incluir otros procesos de negocio que deban ser incluidos en su función. En este contexto un proceso de negocio puede ser visto a varios niveles de granularidad. El enlace entre procesos de negocio y generación de valor lleva a algunos practicantes a ver los procesos de negocio como los flujos de trabajo que efectúan las tareas de una organización. Los procesos poseen las siguientes características:
  1. Pueden ser medidos y están orientados al rendimiento.
  2. Tienen resultados específicos.
  3. Entregan resultados a clientes o “stakeholders”.
  4. Responden a alguna acción o evento específico.
  5. Las actividades deben agregar valor a las entradas del proceso.

EJEMPLOS DE PROCESOS DE NEGOCIO:

.Manufactura y producción: Ensambla el producto, verifica la calidad y crea las listas de materiales.
.Ventas y mercadotecnia: Identifica los clientes, crea el conocimiento del cliente.
.Contabilidad y finanzas: Paga a los acreedores, crea estados financieros, administra las cuentas de efectivo.

DEFINICIÓN DE UN SISTEMA TRANSACCIONAL

Es un tipo de sistema de informacióndiseñado para recolectar, almacenar,modificar y recuperar todo tipo de informaciónque es generada por las transacciones en unaorganización. Una transacción es un evento oproceso que genera o modifica la información que se encuentran eventualmente almacenados en un sistema de información.
Estos sistemas se dirigen principalmente alas áreas de ventas y mercadotecnia,administración y finanzas y al área derecursos humanos.
 Clasificación de un Sistema Transaccional:
•Los sistemas transaccionales se clasifican por ser la primera cara de una empresa con elusuario, sea éste último un trabajador delpropio negocio o un cliente.
•Éste tipo de sistemas se caracteriza porque sufuncionamiento es en línea y permite realizar las operaciones cotidianas del negocio.•Se clasifica también por administrar lastransacciones, por lo general en línea, capturala información que se produce y cuando ocurreuna transacción, no la procesa sino que laentrega a otro sistema.

EJEMPLO DE OLTP:

 Un sistema transaccional debe controlar lastransacciones para mantener la seguridad yconsistencia de los datos involucrados. Por ejemplo, un cliente transfiere dinero de unacuenta a otra cuenta dentro de un mismobanco; la cantidad de dinero que se descuentade la cuenta emisora debe ser igual a la que sesuma en la cuenta receptora. De no ser así, laacción (transacción) no se realiza.

SISTEMA ANALÍTICO

OLAP es el acrónimo en inglés de procesamiento analítico en línea (On-Line Analytical Processing). Es una solución utilizada en el campo de la llamada Inteligencia empresarial (o Business Intelligence) cuyo objetivo es agilizar la consulta de grandes cantidades de datos. Para ello utiliza estructuras multidimensionales (o Cubos OLAP) que contienen datos resumidos de grandes Bases de datos o Sistemas Transaccionales (OLTP). Se usa en informes de negocios de ventas, marketing, informes de dirección, minería de datos y áreas similares.
La razón de usar OLAP para las consultas es la rapidez de respuesta. Una base de datos relacional almacena entidades en tablas discretas si han sido normalizadas. Esta estructura es buena en un sistema OLTP pero para las complejas consultas multitabla es relativamente lenta. Un modelo mejor para búsquedas (aunque peor desde el punto de vista operativo) es una base de datos multidimensional.
La principal característica que potencia a OLAP, es que es lo más rápido a la hora de ejecutar sentencias SQL de tipo SELECT, en contraposición con OLTP que es la mejor opción para operaciones de tipo INSERT, UPDATE Y DELETE

EJEMPLO DE OLAP

Un analista financiero podría querer ver los datos de diversas formas, por ejemplo, visualizándolos en función de todas las ciudades (que podrían figurar en el eje de abscisas) y todos los productos (en el eje de ordenadas), y esto podría ser para un período determinado, para la versión y el tipo de gastos. Después de haber visto los datos de esta forma particular el analista podría entonces querer ver los datos de otra manera y poder hacerlo de forma inmediata. El cubo podría adoptar una nueva orientación para que los datos aparezcan ahora en función de los períodos y el tipo de coste. Debido a que esta reorientación implica resumir una cantidad muy grande de datos, esta nueva vista de los datos se debe generar de manera eficiente para no malgastar el tiempo del analista, es decir, en cuestión de segundos, en lugar de las horas que serían necesarias en una base de datos relacional convencional.


DIMENSIÓN

Una dimensión de base de datos es una colección de objetos relacionados, denominados atributos, que se pueden usar para proporcionar información sobre los datos de hechos de uno o varios cubos. Por ejemplo, los atributos típicos de una dimensión de producto pueden ser el nombre, la categoría, la línea, el tamaño y el precio del producto.Estos objetos están enlazados a una o varias columnas de una o varias tablas de una vista del origen de datos. De manera predeterminada, estos atributos están visibles como jerarquías de atributo y se pueden utilizar para comprender los datos de hechos en un cubo. Los atributos se pueden organizar en jerarquías definidas por el usuario que proporcionan rutas de navegación para ayudar a los usuarios al examinar los datos de un cubo.
Los cubos contienen todas las dimensiones en las que los usuarios basan sus análisis de los datos de hechos. Una instancia de una dimensión de base de datos en un cubo se denomina dimensión de cubo y se relaciona con uno o más grupos de medida en el cubo. Una dimensión de base de datos se puede utilizar varias veces en un cubo. 

EJEMPLO DE DIMENSIÓN


Por ejemplo, una tabla de hechos puede tener varios hechos relacionados con el tiempo y se puede definir una dimensión de cubo independiente que sirva de ayuda para analizar cada uno de ellos. Sin embargo, solo es necesario que haya una dimensión de base de datos relacionada con el tiempo, lo que significa también que solo es necesario que haya una tabla de base de datos relacional relacionada con el tiempo para admitir varias dimensiones de cubo basadas en el tiempo.



DATA WAREHOUSE


En el contexto de la informática, un almacén de datos (del inglésdata warehouse) es una colección de datosorientada a un determinado ámbito (empresa, organización, etc.), integrado, no volátil y variable en el tiempo, que ayuda a la toma de decisiones en la entidad en la que se utiliza. Se trata, sobre todo, de un expediente completo de una organización, más allá de la información transaccional y operacional, almacenado en una base de datos diseñada para favorecer el análisis y la divulgación eficiente de datos (especialmente OLAPprocesamiento analítico en línea). El almacenamiento de los datos no debe usarse con datos de uso actual. Los almacenes de datos contienen a menudo grandes cantidades de información que se subdividen a veces en unidades lógicas más pequeñas dependiendo del subsistema de la entidad del que procedan o para el que sean necesario.

EJEMPLO DE DATA WAREHOUSE

HECHOS O MEDIDAS

•Las medidas representan los valores que son analizados:
–Cantidad de pacientes admitidos
–Llamadas efectuadas.
–ImporteTotal = precioProducto * cantidadVendida
–Rentabilidad = utilidad / PN
–CantidadVentas = cantidad
–PromedioGeneral = AVG(notasFinales)
 Valores numéricos porque estos valores son las bases de las cuales el usuario puede realizar cálculos.
 Si la medida es no numérica debemos codificarla a un valor numérico y cuando tengamos que exponerla decodificarla para  mostrarla con el valor original.
Características de las medidas:
–Deben ser numéricas.
–Cruzan todas las dimensiones en todos los niveles.
Las medidas pueden clasificarse en:
  • Naturales
  • Estas formas de agregación pueden ser:
  • Suma: es la operación que suma los valores de las columnas
  • Cuenta: realiza un conteo de los valores
  • Mínima: devuelve un valor mínimo
  • Máxima: proporciona el mayor de los valores
  • Cuenta de Distintos: cuenta los valores diferentes
  • Calculadas
  • Cálculos Matemáticos
  • Expresiones condicionales
  • Alertas

Tablas de Hechos

Las tablas de hechos contienen hechos.
Los hechos o medidas son los valores de datos que se analizan (son numéricos).
La tabla de hechos tiene una clave primaria compuesta por las claves primarias de las tablas de dimensiones relacionadas a este.
Los hechos son aquellos datos que residen en una tabla de hechos y que son utilizados para crear indicadores, a través de sumarizaciones preestablecidas al momento de crear un cubo multidimensional.