Big Data, la evolución de sus herramientas

Big Data, la evolución de sus herramientas

24 septiembre 2017

"El 90%  de los datos que hay en el mundo, se ha generado en los dos últimos años". A esta conclusión se llegó en la Universidad de Barcelona estudiando el impacto del Big Data en la Sociedad.

Esto quiere decir que el mundo de las TIC evoluciona de tal manera y a tal velocidad que el Big Data se ha convertido en una necesidad para las empresas: si cada día se generan 2,5 trillones de bytes de datos, no es de extrañar que necesitemos alguna herramienta que nos ayude con ellos.

Si analizamos en qué momentos de nuestra vida convivimos con los datos, nos daríamos cuenta de que el Big Data ya forma parte del día a día de cualquier persona o entidad. Estamos rodeados de datos y es normal que no se puedan calcular ni gestionar esa cantidad de datos de forma tradicional.

Existen muchísimas herramientas con las que se puede trabajar en Big Data. La clave es saber clasificarlas según cómo sean los datos que necesitamos analizar y clasificar. Si nos ponemos en situación, existen datos muy estructurados y otros que no lo están. Ahora imagina que esos datos han podido ser creados por personas o por máquinas. Intenta cuantificar y analizar 2,5 trillones de datos teniendo todo eso en cuenta. La opción más fácil, una herramienta que nos ayude. Vamos a ver algunas soluciones para la explotación de software de Big Data en todos sus procesos: almacenamiento, procesamiento y análisis.

 

Tipos de herramientas y su evolución

Python

Lenguaje avanzado de programación que puede ser usado fácilmente por usuarios que no estén familiarizados con la informática a nivel profesional, pero que deben trabajar con el análisis de datos. Es muy popular y dispone de muchas librerías (ya hechas) y una gran comunidad.

Hadoop 

Hadoop es un sistema de código abierto. Principalmente se utiliza para almacenar, procesar y analizar datos en enormes cantidades, pese a que sus creadores querían que se utilizara únicamente en datos de búsqueda en Internet.

Si tenemos en cuenta lo que se ha comentado anteriormente en cuanto a la estructuración de los datos, habría que calcular que el 80% de los datos que se generan hoy no vienen estructurados. Si no que proviene de correos electrónicos, imágenes, GPS, etc. Esta herramienta puede analizar todos estos datos, independientemente del formato o el archivo.

Esta herramienta es capaz de soportar todos los sistemas operativos y también se usa para cualquiera de las principales plataformas en la nube, como Amazon EC2/S3 o Google Cloud.

Elasticsearch

Una herramienta muy potente para buscar grandes cantidades de datos, sobre todo cuando son de tipo complejo. Permite indexar, analizar en tiempo real, hacer consultas de texto completo. Y lo mejor es que, a diferencia de otros sistemas, no requiere que sepamos de antemano qué forma exacta van a tener esos datos.

Apache Spark

Motor de procesamiento de datos de código abierto en tiempo real. Se considera el primer software open source que hace la programación distribuida realmente accesible a los miembros del equipo. Permite programar con Java, Scala, Python o R.

Apache Storm

Procesa grandes cantidades de datos en tiempo real. Se puede utilizar para procesar los comentarios de las redes sociales (monitorización y análisis), los logs de las aplicaciones (y detectar errores), para web analytics, buscadores verticales...

 

Si quieres especializarte en Big Data y conocer cómo mejorar el rendimiento de tu empresa, no dudes en informarte de los cursos que imparte CLEFormación.