¿Qué es Apache Spark?

Apache Spark es un complemento  para el procesamiento de grandes cantidades de datos que funcionan con las colecciones de datos distribuidas.  Es una de las herramientas más utilizadas en Big Data por sus ventajas y características.

Es capaz de procesar datos provenientes de distintos repositorios como bases de datos de naturaleza NoSQL o HDFS (Hadoop Distributed File System), Además es capaz de procesar bases de datos  relacionales.

Apache Spark  permite procesar un gran conjunto de datos de forma simultánea, a diferencia de otros sistemas complementarios como mapreduce de hadoop, que lo hace paso por paso.

Características de Apache Spark:

  • Gran aumento de la velocidad de procesamiento.
  • Open Source ( Código libre).
  • Gran comunidad de desarrolladores.
  • Aumento en la velocidad de procesamiento.
  • No tiene ficheros de gestión de sistemas.
  • Plataforma unificada.
  • Consola para programar ej Java y Phyton.

Ventajas de Apache Spark

La gran ventaja de esta forma de trabajar se traduce en un aumento significativo en la velocidad de procesamiento de los datos, lo que más que importante, es fundamental para cubrir las nuevas necesidades de los proyectos Big Data.Estas necesidades surgen por la importancia del procesamiento en tiempo real de los datos.

  • Spark es una herramienta complementaria.
  • Es muy popular porque permite aumentar la velocidad de procesamiento de los datos.
  • Tiene una  gran comunidad de seguidores y admiradores de esta herramienta está en constante evolución y desarrollo.

A continuación, si lo prefieres, puedes ver un vídeo introductorio a Spark: