¿QUÉ ES BIG DATA?

La pregunta no es obvia, y en general la sociedad y las empresas no tienen muy claro qué abarca este concepto. Cuando hablamos de Big Data no nos referimos a la posibilidad de almacenar y mover muchos datos, o al menos no sólo a eso. De hecho, esta posibilidad no es ni de lejos la mayor ventaja que aportan las tecnologías relacionadas con el universo Big Data. De nada vale almacenar información si no sabemos qué hacer con ella.

Las empresas sufren una especia de síndrome de Diógenes de la información. Tienen los datos sin ningún orden, y son lentas a la hora de interpretar las señales que los propios datos ofrecen. Hay un desfase demasiado elevado entre el momento en el que se produce el dato que deben analizar y el momento exacto en el que pueden realmente leerlo.

El interés creciente en acumular información provoca que las empresas olviden que esa información tiene que ser guardada, gestionada y analizada, y que el Big Data no sirve de nada si lo único que consigue es ahogar a las empresas en una avalancha de información.

Big Data es por tanto un concepto que aúna las técnicas y tecnologías necesarias para capitalizar la información que tienen las compañías.

Las principales características de Big Data vienen identificadas por lo que se conoce como “las 5 V”: Volumen, Velocidad, Variedad, Veracidad y Valor.

z

Volumen

El 90% de los datos se han generado en los últimos dos años, por eso tenemos que prepararnos para la gestión de volúmenes de datos, que mediremos en Teras y Peta bytes como unidades normales del día a día. Existen plataformas para manejar el análisis masivo de datos, pero no son la única solución.,

Velocidad

Lo más importante no es la capacidad de almacenamiento, es tener capacidad para procesar, analizar y dar respuesta. El tiempo de respuesta a los eventos y datos, en su diferentes formatos, hace necesario el uso de tecnologías que nos permitan dar respuesta en el tiempo necesario, incluso “real time”.

Variedad

El origen de los datos, así como su naturaleza y uso, define su estructura de almacenamiento o ausencia de la misma (no estructurados).Tenemos que usar todas las fuentes de datos disponibles para mejorar nuestra competitividad y ser más precisos en el análisis.

Veracidad

Los datos deben ser veraces, pero lo realmente importante es que deben ser analizables y analizados. Tenemos que modelar los datos, caracterizarlos y construir modelos alineados con el negocio. Debemos caracterizar los datos, normalizar las características y construir el modelo.

Beneficios de usar plataformas Big Data (MPP)

  • Nos permiten manejar gran volumen de datos.
  • Ahorro en los costes de computación. Varios estudios señalan que el coste de computación usando estos sistemas es inferior al de los sistemas actuales. Para conseguir una capacidad de computación N, necesitamos N=10n máquinas, y las n maquinas pequeñas son muchos más baratas que una con capacidad N.
  • Ahorro en licencias, ya que muchas herramientas son open-source. Programas disponibles a través de diferentes suministradores.

Nos dan un entorno de trabajo excelente en conjunto con sus ecosistemas para la evaluación de modelos. Data Lake, capa Batch, capa Life, Streaming

Implicaciones

 

  • Desembolso CAPEX.
  • Formación de profesionales en las nuevas tecnologías
  • Per se solo son una solución a una de las V de Big Data: Volumen y Velocidad