RESTful: Los Servicios Web para Gente de Marketing (1)

En el comienzo de Internet la experiencia de visitar un sitio web consistía básicamente en el consumo de información en formato texto salpicada con algunas imágenes, habitualmente en resolución relativamente baja. Una experiencia que se extendía cada vez que hacíamos click en un enlace que, mágicamente, nos transportaba a un nuevo contenido con aproximadamente el mismo reparto de ingredientes. Con la llegada de la denominada web 2.0 se produce un gran cambio. Mientras visitábamos una página desde nuestro navegador (lo que denominamos un cliente dentro de la arquitectura cliente/servidor) el contenido de la página podía cambiar sin que tuviéramos que […]

Leer más

Introducción a Spark: Big Data para gente de Marketing (7)

Un poco de historia sobre Spark El proyecto Spark tuvo su comienzo entre los muros de la universidad de Berkeley en California en 2009. En su concepción Spark intentaba demostrar la viabilidad de otro proyecto de la misma universidad, Mesos desarrollado por Benjamin Hindman y Matei Zaharia, entre otros. Mesos intentaba aportar una nueva capa de gestión que permitía compartir recursos en sistemas distribuidos a través de diversos frameworks de manera eficiente sin necesidad de replicar los datos en cada uno de ellos. En 2013 Spark empezó a convertirse en un proyecto incubado por la fundación de Software Apache (Apache […]

Leer más

YARN y MapReduce: Big Data para gente de Marketing (6)

Los Problemas de MapReduce Como hemos visto en el post anterior MapReduce se encarga de automatizar el procesado de los datos en paralelo a través de distintos nodos de un cluster gestionando las tareas necesarios para la realización del trabajo. También proporciona la capacidad de reconducir el proceso en el momento en que detecta que uno de los nodos falla . MapReduce fue concebido para una función muy concreta, indexar el contenido de cada página web hasta completar todo el universo de la World Wide Web. A medida que se extendieron las aplicaciones de Hadoop a otras lógicas de negocio […]

Leer más

MapReduce y Hadoop: Big Data para gente de Marketing (5)

MapReduce es el modelo de programación utilizado en Hadoop que, básicamente, le hace la vida más fácil a los programadores a la hora de trabajar con grandes volúmenes de datos distribuidos a través de múltiples máquinas que va a trabajar en paralelo dentro de un mismo cluster . Si queremos aprovechar las capacidades de combinar los esfuerzos de varias máquinas en paralelo para realizar nuestra trabajo (job) lo primero que vamos a necesitar es expresar ese trabajo en MapReduce. Hay que entender que MapReduce no es un lenguaje de programación sino un modelo sobre el que se puede programar usando distintos […]

Leer más

Introducción a Hadoop: Big Data para gente de Marketing (4)

Un poco de Historia Como sabrás Apache Software Foundation es un proyecto que recoge distintas iniciativas de código abierto (Open Source) y Hadoop es una de esas iniciativas. El corazón de lo que es hoy Hadoop se inspiró en dos proyectos de Google que tenían su origen en la ambición de indexar el contenido de la WWW en que estaba embarcada la compañía. Los dos proyectos eran: Google File System (GFS), un nuevo sistema de archivo distribuido recogido en una publicación de los ingenieros de Google en octubre de 2003 (Si no has leído el post sobre los sistemas distribuidos […]

Leer más

Sistema de lectura Distribuido

Los Sistemas Distribuidos: Big Data para gente de Marketing (3)

Como ya he explicado en algún post de esta serie una de las limitaciones que han sufrido los analistas de datos en el pasado ha sido la de estar sujetos a la capacidad de procesamiento de sus máquinas. Ni siquiera la famosa ley de Moore ha sido capaz de resolver este problema. Por muy potente que sea el ordenador al que tengan acceso su capacidad de procesamiento siempre es limitada y su escalabilidad prácticamente nula. En este artículo vamos a estar hablando continuamente del Backend y del Frontend, dos conceptos que nos llevan acompañando desde el comienzo de los tiempos […]

Leer más

Data Warehouse y Data Lake: Big Data para gente de Marketing (2):

El mundo de los datos es un terreno pantanoso para aquellos que venimos del mundo del marketing. Uno de temas que a menudo generan un gran número de preguntas es tratar de entender las diferencias entre algunos conceptos fundamentales como los Data Warehouse, los Data Mart y los recientemente llegados Data Lakes. En este artículo voy a intentar describir cada opción con la esperanza de ayudar a aclarar dudas.   Los Data Warehouse y los Data Marts En un mundo donde trabajar con cantidades disparatadas de datos empieza a ser la norma más que la excepción era necesario buscar una […]

Leer más