Categoría: Big Data

¡Hola de nuevo! En el pasado post que os dejo por aquí hablábamos de la importancia de tener una metodología de machine learning para la implantación de proyectos paso a paso de este tipo en una compañía.

Entre los 5 casos más comunes de aplicación de modelos de machine learning en la empresa comentamos uno que tiene un impacto directo sobre el negocio y sobre el que hablaremos a continuación; los modelos Scoring.

Estos son modelos utilizados, en su gran mayoría, en marketplaces y e-commerce con el objetivo de poder categorizar clientes y poder mejorar el marketing de la compañía. Pero también son usados en aseguradoras, banca y son aplicables a cualquier sector. En definitiva, es un indicador que nos va a determinar como de bueno o malo son nuestros clientes.

Pero la verdad es que categorizar a clientes es complicado y me recuerda al cruce de Shibuya, muchos usuarios, muchos clientes y todo muy diferentes… entonces, ¿cómo categorizo correctamente a cada uno de ellos? El problema viene en muchas ocasiones cuando las compañías categorizan a sus clientes de una manera artesanal, bajo su experiencia o conocimiento sobre los mismos, y sin tener en cuenta todas las variables que pueden influir en que un cliente sea mejor que otro.

Entonces es aquí es donde yo me pregunto, ¿es posible categorizar a mis clientes de manera científica basada en datos? Déjame decirte que sí, se puede, y además te invito a que lo veamos juntos ?

¿Qué modelos scoring existen? 

Existen diferentes modelos para el desarrollo de un indicador scoring para una compañía. Modelos estadísticos que nos permiten obtener resultados de forma rápida o modelos de machine learning más complejos que precisan de un entrenamiento y mayor esfuerzo.

Entre estos modelos más sencillos de implementar podemos encontrar dos que pueden ayudarnos a conseguir nuestro objetivo de obtener un indicador de scoring para nuestra compañía.

El primero de ellos es el modelo DEA (data envelopment análisis) a través del cual podemos conocer si un cliente es eficiente en función de diferentes factores. Este modelo tiene la peculiaridad de que todas sus variables han de ser definidas en función de si dependen de manera directa o indirecta de nuestro cliente.

Por otro lado tenemos el modelo GEI (global entrepreneurship Index) que se trata de un modelo que inicialmente se utilizó para ordenar países en cuanto a su índice de emprendimiento y que ha demostrado grandes capacidades para la aplicación en este tipo de indicadores de clasificación. Este es un modelo que tiene diferentes fases que se van adaptando para la solución del problema.

Seleccionar un modelo u otro será en función de las variables que vayan a conformar nuestro problema y de su posible categorización. Un vez seleccionado el, o los modelos a testear, pasaremos al desarrollo e implementación fase a fase.

¿Cómo abordo un modelo de scoring? 

Para que la búsqueda e implementación de un modelo scoring no sea una odisea puedes seguir una serie de pasos que te indico a continuación:

Primera fase: Análisis del problema y definición de variables

  • Se trata de una fase de investigación del problema para entender cómo debemos plantear nuestro modelo de scoring. En esta primera fase se definen que factores influyen en que un cliente sea bueno o no. Un vez encontrado, definimos finalmente las variables que formarán parte de nuestro indicador de scoring. Podríamos utilizar herramientas como Power BI o Tableau, que nos aportan una facilidad en cuanto a visualización, para comprobar cómo se comportan las variables y cómo influyen en nuestro problema.

Segunda fase: Análisis del problema y definición de variables

  • En esta segunda fase, y con las variables ya definidas, buscamos modelos afines al planteamiento de nuestro indicador. En esta fase podemos definir tantos modelos como creamos que dan solución a nuestros problema utilizando como mínimo 2 para comprobar el resultado entre ambos.

Tercera fase: Programación y testing de modelos desarrollados

  • En esta última fase desarrollamos la solución y la adaptamos a las variables que formarán parte de nuestro modelo. Para la fase podremos utilizar un dataset aleatorio para comprobar que el modelo nos devuelve un resultado y posteriormente aplicar nuestro dataset real.

¿Beneficios que aporta categorizar bien a mis clientes? 

Disponer de un modelo scoring basado en datos en la compañía nos va a permitir conocer, de una manera científica, a nuestros clientes. Esto nos permitirá categorizarlos objetivamente a nuestros clientes, conocer quienes aportan valor a la compañía y qué otros deberíamos mejorar. A su vez, podríamos realizar acciones de marketing destinadas a cada segmento de cliente, en función de su posición de scoring, que nos permitirían mejorar la posición de cada cliente en la compañía.

Por otro lado, una categorización de clientes científica es en muchas ocasiones necesaria a nivel legal para poder explicar el comportamiento de algoritmos que evitan el sesgo en la propia categorización y nos evitan problemas legales.

Y por último, nos servirá a la compañía para evitar creencias basadas en el conocimiento de la empresa y poder tomar decisiones basadas en datos.

¿Quieres conocer más detalles?

En sumamoOs desarrollamos y acompañamos en la implantación de modelos estadísticos y modelos de machine learning, entendiendo las necesidades de tu empresa y el valor aportado directamente al negocio para que puedas aprovechar el potencial de estos algoritmos. De modo que, si quieres averiguar más detalles, puedes  echar un vistazo aquí o  contactar con nosotros para conocer cómo transformar tu empresa empleando está creciente corriente tecnológica. 

En los últimos 30 años hemos asistido a un incremento exponencial en el número de dispositivos y software que generan datos para satisfacer las necesidades actuales de usuarios y empresas. Estas últimas, almacenan, interpretan, administran, transforman y procesan estos datos para proporcionar un conocimiento que aporte valor.

Poder extraer este conocimiento del análisis de los datos con los que opera cualquier empresa depende en gran medida de su capacidad para captar, almacenar, procesar y visualizar esos mismos datos. El volumen de datos con los que muchas de ellas tienen que lidiar en su día a día implica la necesidad de emplear grandes infraestructuras de almacenamiento y procesamiento que, a nivel local, pocas son capaces de asumir.

Por ello, el uso de servicios en la nube como Microsoft Azure, Amazon Web Services o Google ha experimentado un importante crecimiento en los últimos años. Estos servicios proporcionan la infraestructura física y lógica para poder almacenar y procesar todos esos datos, evitando así cualquier inversión de capital inicial y operando bajo un modelo de pago por uso. Además de la infraestructura, los entornos en la nube se encargan de realizar su mantenimiento, permitir su escalabilidad de una forma rápida y sencilla, asegurar su disponibilidad, así como ofrecer soporte técnico para las empresas a las que ofrecen este servicio.

A la hora de abordar un proyecto Big Data en un servicio en la nube se ha de optar por una infraestructura que disponga de los elementos necesarios para definir una base sólida que permita crecer a medida que se requiera una mayor funcionalidad. En una primera etapa podemos dividir el proyecto en cinco pilares fundamentales, junto con una serie de cuestiones a tratar antes de realizar la contratación del servicio:

  1. Captación o ingesta.
    • ¿De dónde vienen los datos?
    • ¿Cuántos orígenes de datos hay?
    • ¿Son accesibles desde los servicios en la nube o ha de crearse accesos específicos?
  2. Almacenado.
    • ¿Existe variedad de datos (texto, logs, imágenes, vídeos, etc)?
    • ¿Cuál es la estructura de los datos?
    • ¿Qué volumen de datos se va a tratar?
    • ¿Cuál es la velocidad de entrada de estos datos?
  3. Procesado.
    • ¿Debe responder a eventos en tiempo real, o un gran volumen de datos en un flujo continuo de tiempo ilimitado?
    • ¿Qué tiempos de latencia se admiten?
    • ¿Qué complejidad tiene el análisis a realizar sobre los datos?
  4. Análisis avanzado
    • ¿Qué tipo de análisis se desea realizar, análisis predictivo o descriptivo?
    • ¿Se requerirá del uso de herramientas de Inteligencia Artificial?
  5. Visualización.
    • ¿Quién va a tener acceso a los análisis generados?
    • ¿Existen diferentes niveles de acceso a la información?
    • ¿Con qué frecuencia se va a interpretar los resultados?

Resolver estas preguntas permite seleccionar qué tecnologías o elementos compondrán la infraestructura que albergue el proyecto. En el área de Business Intelligence y BigData de sumamoOs ayudamos a las empresas a dar respuesta a estas cuestiones y a adoptar la infraestructura más adecuada para los requisitos del proyecto.