En los últimos 30 años hemos asistido a un incremento exponencial en el número de dispositivos y software que generan datos para satisfacer las necesidades actuales de usuarios y empresas. Estas últimas, almacenan, interpretan, administran, transforman y procesan estos datos para proporcionar un conocimiento que aporte valor.
Poder extraer este conocimiento del análisis de los datos con los que opera cualquier empresa depende en gran medida de su capacidad para captar, almacenar, procesar y visualizar esos mismos datos. El volumen de datos con los que muchas de ellas tienen que lidiar en su día a día implica la necesidad de emplear grandes infraestructuras de almacenamiento y procesamiento que, a nivel local, pocas son capaces de asumir.
Por ello, el uso de servicios en la nube como Microsoft Azure, Amazon Web Services o Google ha experimentado un importante crecimiento en los últimos años. Estos servicios proporcionan la infraestructura física y lógica para poder almacenar y procesar todos esos datos, evitando así cualquier inversión de capital inicial y operando bajo un modelo de pago por uso. Además de la infraestructura, los entornos en la nube se encargan de realizar su mantenimiento, permitir su escalabilidad de una forma rápida y sencilla, asegurar su disponibilidad, así como ofrecer soporte técnico para las empresas a las que ofrecen este servicio.
A la hora de abordar un proyecto Big Data en un servicio en la nube se ha de optar por una infraestructura que disponga de los elementos necesarios para definir una base sólida que permita crecer a medida que se requiera una mayor funcionalidad. En una primera etapa podemos dividir el proyecto en cinco pilares fundamentales, junto con una serie de cuestiones a tratar antes de realizar la contratación del servicio:
- Captación o ingesta.
- ¿De dónde vienen los datos?
- ¿Cuántos orígenes de datos hay?
- ¿Son accesibles desde los servicios en la nube o ha de crearse accesos específicos?
- Almacenado.
- ¿Existe variedad de datos (texto, logs, imágenes, vídeos, etc)?
- ¿Cuál es la estructura de los datos?
- ¿Qué volumen de datos se va a tratar?
- ¿Cuál es la velocidad de entrada de estos datos?
- Procesado.
- ¿Debe responder a eventos en tiempo real, o un gran volumen de datos en un flujo continuo de tiempo ilimitado?
- ¿Qué tiempos de latencia se admiten?
- ¿Qué complejidad tiene el análisis a realizar sobre los datos?
- Análisis avanzado
- ¿Qué tipo de análisis se desea realizar, análisis predictivo o descriptivo?
- ¿Se requerirá del uso de herramientas de Inteligencia Artificial?
- Visualización.
- ¿Quién va a tener acceso a los análisis generados?
- ¿Existen diferentes niveles de acceso a la información?
- ¿Con qué frecuencia se va a interpretar los resultados?
Resolver estas preguntas permite seleccionar qué tecnologías o elementos compondrán la infraestructura que albergue el proyecto. En el área de Business Intelligence y BigData de sumamoOs ayudamos a las empresas a dar respuesta a estas cuestiones y a adoptar la infraestructura más adecuada para los requisitos del proyecto.