Hadoop es el nombre de un elefante de juguete de color amarillo de un niño, cuyo padre creó uno de los proyectos de código abierto que manejan más volumen de datos del momento. Hadoop es la estructura de software de código abierto que almacena datos de forma masiva, con un enorme poder de procesamiento y que le permite operar con tareas concurrentes.

 

Qué es Hadoop

Hadoop proviene de un buscador creado entre las décadas de los noventa y dosmil, de código abierto llamado Nutch. Creado por Doug Cutting (el padre del niño con el elefante amarillo) y Mike Cafarella. Es un buscador contemporáneo de Google. En 2006, Cutting se unió a Yahoo y también su proyecto Nutch, que se dividió en dos partes, una siguió siendo un buscador y la otra, la parte de cómputo y procesamiento distribuido se convirtió en Hadoop. Actualmente, Hadoop es gestionado y mantenido por una comunidad global de programadores de software,a través de la Apache Software Foundation (ASF).

 

¿Por qué tienes que interesarte por Hadoop?

En el ámbito del Desarrollo de aplicaciones multiplataforma, Hadoop tiene mucho que aportar. Su gran capacidad para almacenar y procesar enormes cantidades de datos, al instante, es una de sus mayores ventajas. El Big Data, datos y más datos de los medios sociales o del Internet de las Cosas, hacen de este recurso algo muy interesante.

Hadoop tiene gran velocidad y poder de cómputo en el procesamiento de macro datos o Big Data. Es decir, cuantos más nodos de cómputo utilices, más poder de procesamiento tiene.

No es necesario procesar previamente los datos antes de almacenarlos. Es totalmente flexible, texto, imágenes, vídeos…Posteriormente puedes decidir como utilizarlos.

Al ser de código abierto es gratuito (parte estructural de Hadoop) y gracias a hardware comercial puede almacenar grandes cantidades de datos. Además, posee inteligencia contra los fallos de hardware. En el caso de que falle un nodo, se redirigen los trabajos automáticamente a otros. Se crean copias múltiples de todos los datos de forma automática y evita que falle el procesamiento distribuido.