DATA SCIENCE / DATA ENGINEERING


“Un científico de datos es un profesional que va a contestar una pregunta que no sabes que tienes”

Los datos son el petróleo del Siglo XXI. Te ayudamos a explotar el recurso más importante. Adelántate al futuro con análisis predictivo.

DATA SCIENCE

Los científicos de datos utilizan técnicas basadas en las matemáticas y estadística, y con la utilización de diferentes algoritmos unidos a la aplicación del aprendizaje automático (machine learning) son capaces de extraer valor de los datos de las compañías detectando diferentes patrones de comportamiento y prediciendo comportamientos futuros, aportando un conocimiento fundamental para dar soporte a la toma de decisiones.

Construcción de modelos predictivos: la clave

  • Es la parte más compleja: identificar el caso de negocio objetivo.   VALOR
  • Identificar datos de diferentes fuentes, los tipos, transformarlos y definir los algoritmos a utilizar.
  • Probar y calibrar los resultados (factores de aprendizaje, vías, etc.).
  • Optimizaciones.
  • Reiterar para enriquecer el modelo con nuevas variables.
  • Pasar a producción.

DATA ENGINEERING

Un ingeniero de datos (Data Engineer) debe conocer la multitud de soluciones tecnológicas que existen en el mercado para aplicar aquella que es óptima para la situación que se está tratando.

Existe una amplia variedad de herramientas, muchas de ellas OpenSource, y todas ellas están en constante evolución, por lo que es fundamental que un ingeniero de datos esté permanentemente en un proceso de formación continua. Algunas de las herramientas más utilizadas son:

  • Hadoop y ecosistema: HDFS, MapReduce, Flume, Pig, Hive, Sqoop
  • Spark,SparkSQL,Spark Streamming, Kafka
  • MongoDB, Cassandra, Neo4J
  • Gehit (análisis de redes/grafos)

Asimismo, existen muchos lenguajes de programación que podemos utilizar para desarrollar los modelos extraídos de las diferentes técnicas de Big Data. Algunos de los más utilizados son:

  • Matlab
  • R, Python
  • Java
  • Scala