Categoría: Big Data

Datos, datos y más datos. Una palabra cada vez más escuchada. ¿Cómo puede ser tan importante algo que ni siquiera es tangible? Entiendo que los datos son usados por las empresas, pero, ¿de qué manera afectan a mi vida diaria?

Bien, el ser humano genera y analiza datos en sus decisiones diarias. Elegir tu hamburguesa favorita y sus complementos, por ejemplo, requiere un análisis de datos. Con pepinillo, sin pepinillo, da igual. Lo importante es que el cerebro es una máquina que transforma e interpreta los datos para obtener la mejor solución posible para nosotros, ya sea o no racional.

Sorprendente, ¿verdad? ¿Qué ocurre cuando no se observa a una única persona, sino a más de 7,9 mil millones?

Según el informe Data Never Sleeps 9.0 de Domo, a día de hoy algunas cosas que suceden en un minuto son:

  • 6 millones de usuarios compran online.
  • Se comparten 240.000 fotos en Facebook.
  • 12 millones de mensajes.
  • 5,7 millones de búsquedas en Google.
  • 167 millones de vídeos vistos en TikTok.

Esta magnitud diaria supone que, para 2025, Internet acumulará 181 zetabytes. Para hacernos una idea de la inmensidad de esta cantidad, un zetabyte permite almacenar 30 mil millones de películas en 4K o 60 mil millones de videojuegos, según Seagate, Apr 8, 2021. Esto es posible gracias a la existencia de casi 5,4 mil millones de usuarios en Internet en 2022, lo que representa el 67,9% de la población mundial.

Volumen total de datos en el mundo, 2010, 2025

Fuente: Stadista

¿A qué conclusión llegamos? Los seres humanos cada vez generamos más datos. Estos datos, estos 181 zetabytes en 2025, ¿qué integran? Necesidades, deseos, interacciones, vidas, relaciones, es decir, información valiosa.

La evolución galopante del mundo en que vivimos supone que las empresas, para poder acceder a esta información valiosa, deben analizar cada vez más datos. Para poder analizar correctamente estos datos y obtener soluciones, las empresas demandan cada vez más un perfil conocido como científico de datos. Sin la ciencia de datos, la toma de decisiones empresarial queda mucho más limitada y con mayor incertidumbre, por lo que la demanda del perfil crece exponencialmente, mientras que la escasa oferta ofrece una situación muy propicia para aquellos que estudian y se dedican a esta disciplina. Esto también puede verse en la remuneración media, de unos $117.345 en EE.UU y 35,000 € en España según Glassdoor.

Evolución de la demanda de científicos de datos

La brecha existente entre la oferta y demanda del profesional del dato origina problemas en las organizaciones, ya que no se pueden adaptar correctamente a los rápidos cambios del entorno. La capacitación técnica de los equipos de trabajos existentes en las empresas es un factor relevante en la mejora de la toma de decisiones organizacional, independientemente del departamento en el que te encuentres (finanzas y contabilidad, ventas, gerencia de negocio, etc.). Hazte esta pregunta:

¿Necesito datos para hacer mi trabajo? Si la respuesta es ‘Sí’, entonces podemos decir que eres un científico de datos en potencia. 

Puede que te preguntes, «¿qué es la ciencia de datos?», «¿en qué consiste?» o «¿por qué es importante?». Aunque no sepas la respuesta a estas preguntas, sí, potencialmente eres un profesional del dato porque tienes iniciativa y necesidad de aprender esta disciplina, todo lo que necesitas es un poco de formación técnica.

Si eres una persona que desea comenzar la transición a este campo y saber responder a estas preguntas, mejorar sus capacidades o explotar el talento de tus equipos de trabajo, sumamoOs cuenta con un curso especializado de ciencia de datos para analistas de negocio. También contamos con la posibilidad de ofrecer esta formación en tu organización con contenidos adaptados y utilizando tus datos. Si te interesa esta Formación In Company, contáctanos y te realizaremos un presupuesto adaptado a tus necesidades.

Y recuerda, las personas que estudian esta disciplina aportan un valor diferencial a la toma de decisiones de las empresas y son un activo muy importante. Con ayuda de sumamoOs, aventúrate en este sector.

En la actualidad se está produciendo una alta demanda de profesionales del dato, lo que, unido a la necesidad de conocer bien el negocio, hace que los proyectos de ciencia de datos se demoren o que incluso, no lleguen a entrar en producción. Dada esta compleja situación…

¿Dónde podemos encontrar científicos de datos?

Bueno, ¿has pensado alguna vez en la formación interna de tus equipos de trabajo como científicos de datos? La mayoría de las organizaciones se encuentran en proceso de adaptar el cambio cultural que implica la transformación digital, y algunas de ellas incluso inician su implementación sin una clara definición de objetivos. Un elemento importante dentro de la transformación digital es la implementación de la Inteligencia Artificial en procesos organizacionales o empresariales. Aunque la mayoría de las organizaciones entienden qué es el análisis predictivo o la ciencia de datos, no conocen en detalle todo lo que esto implica.

Entre las múltiples causas por las que no se implementan iniciativas de análisis avanzado, está la falta de un equipo de ciencia de datos. La alta demanda y la escasa oferta de profesionales de científicos de datos implica, en ocasiones, una alta rotación en este tipo de equipos de trabajo. El coste de rotación de estos profesionales puede alcanzar entre el 60% y el 150% del salario bruto (coste de liquidación, coste de selección, costes de contratación, ramp up, etc.)

Los gerentes de recursos humanos y los gerentes de datos generalmente resuelven este problema enfocándose en lo siguiente: 

  1. Adquirir el mejor talento nuevo en ciencia de datos.
  2. Retener al mejor talento existente.
  3. Mantener la motivación.

Desafortunadamente, esta receta no siempre funciona en las organizaciones. Entonces, ¿cómo mitigar la alta rotación de científicos de datos?

Comencemos analizando los diferentes tipos de profesionales de datos disponibles en el mercado: 

  1. Recién graduado que ha aprendido ciencia de datos y aprendizaje automático, pero sin experiencia en el mundo real.
  2. Científico de datos con unos años de experiencia en la industria y que ha implementado varios proyectos en producción.
  3. Cualquier otro profesional que hizo la transición a la ciencia de datos en algún momento de su carrera.

Cada categoría tiene sus pros y sus contras. Un gerente de adquisición de talento debe decidir cuándo y cómo contratar a un científico de datos en función de la necesidad más inmediata y el estado de madurez general de la organización.

Si la organización está en medio de un gran proyecto y necesita reemplazar a alguien, es muy probable que prefiera un científico de datos con experiencia relevante en la industria. Esto es complejo de encontrar y muy costoso, por supuesto.

Por otro lado, si la organización está al comienzo del viaje en términos de madurez de análisis de datos, quizás una buena combinación de los 3 perfiles puede ser un buen enfoque.

Descubriendo al científico de datos oculto.

Hay una gran fuente de talento potencial en ciencia de datos, generalmente sin explotar o incluso oculto, en cada organización: los equipos de trabajo existentes. ¿Alguna vez has considerado a los analistas de negocio, los gerentes de proyectos, el personal de IT, de finanzas, contables, profesionales de recursos humanos, ventas y comerciales, desarrolladores de negocio, analistas de mercado, etc. como especialistas en análisis avanzado de datos? En caso de que seas cualquier tipo profesional ‘no-científico de datos’, hazte esta pregunta:

¿Necesito datos para hacer mi trabajo? ¿Necesito analizar datos para hacer mi trabajo? Si la respuesta es ‘Sí’, entonces podemos decir que eres un científico de datos en potencia. Todo lo que necesitas es un poco de formación técnica.

Muchas organizaciones se han dado cuenta de que sus equipos de trabajo internos son realmente una fuente de talento en ciencia de datos, y tan sólo invirtiendo un poco en capacitación técnica, consiguen impactos muy positivos. El resultado de esta capacitación y formación interna suele ser mucho más positivo que contratar nuevos científicos de datos, ya que este personal conoce la cultura de la organización, las operaciones comerciales y el estilo de gestión de adentro hacia afuera.

Hay que considerar que el conocimiento de la actividad o la cultura organizacional podría ser aún más importante que las habilidades técnicas en ciencia de datos, algo que el personal interno ya posee. Esto, además, se ve reforzado por la aparición de tecnologías que nos facilitan enormemente la aplicación de la analítica avanzada en las organizaciones.

Beneficios de capacitar a los equipos de trabajo internos en Ciencia de Datos:

En el corto plazo: 

  • Mejorar la comunicación entre los miembros del equipo.
  • Menor necesidad de contratar externamente.
  • Sentido de propiedad del talento existente.

A medio plazo:

  • Tasa de rotación más baja.
  • Menor coste de contratación.
  • Aumento de la productividad.
  • Valor agregado exponencial.

¿Te podemos ayudar?

En sumamoOs creemos en la capacitación de los equipos y te ofrecemos un curso especialmente dedicado para analistas de negocio y profesionales de cualquier disciplina no técnica. Si quieres más información no dudes en consultarnos.

¡Hola de nuevo! En el pasado post que os dejo por aquí hablábamos de la importancia de tener una metodología de machine learning para la implantación de proyectos paso a paso de este tipo en una compañía.

Entre los 5 casos más comunes de aplicación de modelos de machine learning en la empresa comentamos uno que tiene un impacto directo sobre el negocio y sobre el que hablaremos a continuación; los modelos Scoring.

Estos son modelos utilizados, en su gran mayoría, en marketplaces y e-commerce con el objetivo de poder categorizar clientes y poder mejorar el marketing de la compañía. Pero también son usados en aseguradoras, banca y son aplicables a cualquier sector. En definitiva, es un indicador que nos va a determinar como de bueno o malo son nuestros clientes.

Pero la verdad es que categorizar a clientes es complicado y me recuerda al cruce de Shibuya, muchos usuarios, muchos clientes y todo muy diferentes… entonces, ¿cómo categorizo correctamente a cada uno de ellos? El problema viene en muchas ocasiones cuando las compañías categorizan a sus clientes de una manera artesanal, bajo su experiencia o conocimiento sobre los mismos, y sin tener en cuenta todas las variables que pueden influir en que un cliente sea mejor que otro.

Entonces es aquí es donde yo me pregunto, ¿es posible categorizar a mis clientes de manera científica basada en datos? Déjame decirte que sí, se puede, y además te invito a que lo veamos juntos ?

¿Qué modelos scoring existen? 

Existen diferentes modelos para el desarrollo de un indicador scoring para una compañía. Modelos estadísticos que nos permiten obtener resultados de forma rápida o modelos de machine learning más complejos que precisan de un entrenamiento y mayor esfuerzo.

Entre estos modelos más sencillos de implementar podemos encontrar dos que pueden ayudarnos a conseguir nuestro objetivo de obtener un indicador de scoring para nuestra compañía.

El primero de ellos es el modelo DEA (data envelopment análisis) a través del cual podemos conocer si un cliente es eficiente en función de diferentes factores. Este modelo tiene la peculiaridad de que todas sus variables han de ser definidas en función de si dependen de manera directa o indirecta de nuestro cliente.

Por otro lado tenemos el modelo GEI (global entrepreneurship Index) que se trata de un modelo que inicialmente se utilizó para ordenar países en cuanto a su índice de emprendimiento y que ha demostrado grandes capacidades para la aplicación en este tipo de indicadores de clasificación. Este es un modelo que tiene diferentes fases que se van adaptando para la solución del problema.

Seleccionar un modelo u otro será en función de las variables que vayan a conformar nuestro problema y de su posible categorización. Un vez seleccionado el, o los modelos a testear, pasaremos al desarrollo e implementación fase a fase.

¿Cómo abordo un modelo de scoring? 

Para que la búsqueda e implementación de un modelo scoring no sea una odisea puedes seguir una serie de pasos que te indico a continuación:

Primera fase: Análisis del problema y definición de variables

  • Se trata de una fase de investigación del problema para entender cómo debemos plantear nuestro modelo de scoring. En esta primera fase se definen que factores influyen en que un cliente sea bueno o no. Un vez encontrado, definimos finalmente las variables que formarán parte de nuestro indicador de scoring. Podríamos utilizar herramientas como Power BI o Tableau, que nos aportan una facilidad en cuanto a visualización, para comprobar cómo se comportan las variables y cómo influyen en nuestro problema.

Segunda fase: Análisis del problema y definición de variables

  • En esta segunda fase, y con las variables ya definidas, buscamos modelos afines al planteamiento de nuestro indicador. En esta fase podemos definir tantos modelos como creamos que dan solución a nuestros problema utilizando como mínimo 2 para comprobar el resultado entre ambos.

Tercera fase: Programación y testing de modelos desarrollados

  • En esta última fase desarrollamos la solución y la adaptamos a las variables que formarán parte de nuestro modelo. Para la fase podremos utilizar un dataset aleatorio para comprobar que el modelo nos devuelve un resultado y posteriormente aplicar nuestro dataset real.

¿Beneficios que aporta categorizar bien a mis clientes? 

Disponer de un modelo scoring basado en datos en la compañía nos va a permitir conocer, de una manera científica, a nuestros clientes. Esto nos permitirá categorizarlos objetivamente a nuestros clientes, conocer quienes aportan valor a la compañía y qué otros deberíamos mejorar. A su vez, podríamos realizar acciones de marketing destinadas a cada segmento de cliente, en función de su posición de scoring, que nos permitirían mejorar la posición de cada cliente en la compañía.

Por otro lado, una categorización de clientes científica es en muchas ocasiones necesaria a nivel legal para poder explicar el comportamiento de algoritmos que evitan el sesgo en la propia categorización y nos evitan problemas legales.

Y por último, nos servirá a la compañía para evitar creencias basadas en el conocimiento de la empresa y poder tomar decisiones basadas en datos.

¿Quieres conocer más detalles?

En sumamoOs desarrollamos y acompañamos en la implantación de modelos estadísticos y modelos de machine learning, entendiendo las necesidades de tu empresa y el valor aportado directamente al negocio para que puedas aprovechar el potencial de estos algoritmos. De modo que, si quieres averiguar más detalles, puedes  echar un vistazo aquí o  contactar con nosotros para conocer cómo transformar tu empresa empleando está creciente corriente tecnológica. 

En los últimos 30 años hemos asistido a un incremento exponencial en el número de dispositivos y software que generan datos para satisfacer las necesidades actuales de usuarios y empresas. Estas últimas, almacenan, interpretan, administran, transforman y procesan estos datos para proporcionar un conocimiento que aporte valor.

Poder extraer este conocimiento del análisis de los datos con los que opera cualquier empresa depende en gran medida de su capacidad para captar, almacenar, procesar y visualizar esos mismos datos. El volumen de datos con los que muchas de ellas tienen que lidiar en su día a día implica la necesidad de emplear grandes infraestructuras de almacenamiento y procesamiento que, a nivel local, pocas son capaces de asumir.

Por ello, el uso de servicios en la nube como Microsoft Azure, Amazon Web Services o Google ha experimentado un importante crecimiento en los últimos años. Estos servicios proporcionan la infraestructura física y lógica para poder almacenar y procesar todos esos datos, evitando así cualquier inversión de capital inicial y operando bajo un modelo de pago por uso. Además de la infraestructura, los entornos en la nube se encargan de realizar su mantenimiento, permitir su escalabilidad de una forma rápida y sencilla, asegurar su disponibilidad, así como ofrecer soporte técnico para las empresas a las que ofrecen este servicio.

A la hora de abordar un proyecto Big Data en un servicio en la nube se ha de optar por una infraestructura que disponga de los elementos necesarios para definir una base sólida que permita crecer a medida que se requiera una mayor funcionalidad. En una primera etapa podemos dividir el proyecto en cinco pilares fundamentales, junto con una serie de cuestiones a tratar antes de realizar la contratación del servicio:

  1. Captación o ingesta.
    • ¿De dónde vienen los datos?
    • ¿Cuántos orígenes de datos hay?
    • ¿Son accesibles desde los servicios en la nube o ha de crearse accesos específicos?
  2. Almacenado.
    • ¿Existe variedad de datos (texto, logs, imágenes, vídeos, etc)?
    • ¿Cuál es la estructura de los datos?
    • ¿Qué volumen de datos se va a tratar?
    • ¿Cuál es la velocidad de entrada de estos datos?
  3. Procesado.
    • ¿Debe responder a eventos en tiempo real, o un gran volumen de datos en un flujo continuo de tiempo ilimitado?
    • ¿Qué tiempos de latencia se admiten?
    • ¿Qué complejidad tiene el análisis a realizar sobre los datos?
  4. Análisis avanzado
    • ¿Qué tipo de análisis se desea realizar, análisis predictivo o descriptivo?
    • ¿Se requerirá del uso de herramientas de Inteligencia Artificial?
  5. Visualización.
    • ¿Quién va a tener acceso a los análisis generados?
    • ¿Existen diferentes niveles de acceso a la información?
    • ¿Con qué frecuencia se va a interpretar los resultados?

Resolver estas preguntas permite seleccionar qué tecnologías o elementos compondrán la infraestructura que albergue el proyecto. En el área de Business Intelligence y BigData de sumamoOs ayudamos a las empresas a dar respuesta a estas cuestiones y a adoptar la infraestructura más adecuada para los requisitos del proyecto.