MapReduce y Hadoop: Big Data para gente de Marketing (5)

MapReduce es el modelo de programación utilizado en Hadoop que, básicamente, le hace la vida más fácil a los programadores a la hora de trabajar con grandes volúmenes de datos distribuidos a través de múltiples máquinas que va a trabajar en paralelo dentro de un mismo cluster . Si queremos aprovechar las capacidades de combinar los esfuerzos de varias máquinas en paralelo para realizar nuestra trabajo (job) lo primero que vamos a necesitar es expresar ese trabajo en MapReduce. Hay que entender que MapReduce no es un lenguaje de programación sino un modelo sobre el que se puede programar usando distintos […]

Leer más

Introducción a Hadoop: Big Data para gente de Marketing (4)

Un poco de Historia Como sabrás Apache Software Foundation es un proyecto que recoge distintas iniciativas de código abierto (Open Source) y Hadoop es una de esas iniciativas. El corazón de lo que es hoy Hadoop se inspiró en dos proyectos de Google que tenían su origen en la ambición de indexar el contenido de la WWW en que estaba embarcada la compañía. Los dos proyectos eran: Google File System (GFS), un nuevo sistema de archivo distribuido recogido en una publicación de los ingenieros de Google en octubre de 2003 (Si no has leído el post sobre los sistemas distribuidos […]

Leer más