¿Qué es Hadoop y el procesamiento distribuído?

Apache Hadoop es un software open source (de licencia abierta) que proporciona la posibilidad de trabajar con un procesamiento distribuido. Es una infraestructura de datos distribuida. Esto significa que puede trabajar con varias computadoras que se podrían encontrar en lugares distintos físicamente con sus capacidades de software y hardware individuales, pero actuando como una solo sistema, con un objetivo común. Esto permite aumentar la capacidad de procesamiento ya que hadoop hace trabajar varias máquinas en paralelo pero por un mismo fin.


Hadoop y Big Data

Hadoop es una de las tecnologías preferidas por los expertos en tecnologías Big Data por el gran atractivo que supone contar con tecnología opensource que reduce en gran medida los costes de procesamiento de grandes volúmenes de datos.

Además, Hadoop ofrece la posibilidad de añadir un complemento para el almacenamiento, se llama MapReduce.


Características de Hadoop:

  • Es muy flexible.
  • Permite acceder de forma remota a cualquier máquina remota conectada a las demás como si fuera local.
  • Accesibilidad entre los dispositivos conectados.
  • Funcionalidad cómoda.
  • Sistema escalable.
  • Reducción de costes.
  • Es open source o licencia abierta.

En lugar de utilizar una máquina de altas capacidades, utiliza varias máquinas de forma distribuidas en paralelo que consiguen un rendimiento muy alto. Por lo que reduce los costes que supone tener un alto rendimiento de procesamiento utilizando varias máquinas para ello.

A esto se le llama clustering, utiliza computadores con un bajo coste conectados entre sí mediante el software que distribuye la carga de trabajo entre las máquinas.

En el siguiente vídeo se explica qué es y en qué consiste Hadoop:


Apache Hadoop

El proyecto Apache Hadoop es un proyecto de gran envergadura para las infraestructuras de datos distribuidas.

Está formado por voluntarios que contribuyen a su desarrollo gracias en parte, a su naturaleza open source. Esta es una de sus características más atractivas y una de las razones por las que es una de las tecnologías más populares y utilizadas en el universo Big Data.