Desde hace algún tiempo venimos escuchando hablar en todo tipo de foros sobre la importancia de tener un buen modelo de atribución. En general este tipo de discusiones centran su atención en la atribución multicanal, es decir, la asignación de un peso a la contribución de los diferentes canales que participan en una conversión online.
Si no se puede negar que usar el modelo de atribución last click, el más generalizado a día de hoy, es mantener una visión muy sesgada de la realidad, la mayoría de las veces obviamos que, por muy potente que pueda ser la inteligencia de un modelo de atribución más sofisticado (leáse data driven) sus resultados van a ser de escaso valor si no hay por detrás un buen modelo de atribución que establezca un vínculo entre los dispositivos que pertenecen a un mismo usuario en su camino a la conversión.
Según datos de GFK un 63% de los usuarios utiliza al menos dos dispositivos multimedia a lo largo del día y según Facebook un 28% de los usuarios que mostraron interés en un anuncio en Facebook en el móvil acabaron convirtiendo en desktop por lo que la probabilidad de que participe más de un dispositivo en el camino a la conversión es muy elevada.
Sin embargo la atribución cross-device supone un auténtico reto para todo aquel que no se llame Facebook o Google. Estos actores cuentan con la ventaja de tener un gran volumen de datos identificados de usuarios que acceden a sus servicios a través de diferentes dispositivos en diferentes momentos del día. A este método, que cuenta con datos identificados como punto de partida, se le denomina determinista.
El resto del mercado utiliza métodos probabilísticos para intentar hacer un match entre un usuario y sus dispositivos. El método utiliza un set de datos autentificado (truth set) con el que se construye el modelo y otro, extraído del set original, con el que verifican la utilidad del modelo (verification set).
Para evaluar el modelo se usa el sistema de Binary Classification con el modelo de clasificación que se representa en una Confusion Matrix.
Ejemplo de Confusion Matrix
Hay muchos proveedores de atribución cross-device en el mercado, se trata de un territorio en el que previsiblemente veremos aparecer muchos actores y procesos de compra de los grandes. Por ejemplo hace unos meses Oracle compró Crosswise, uno de los player más fuertes del mercado y partner por ejemplo del DMP Krux. Otros actores relevantes del mercado son Tapad (recientemente comprado por el operador de telecomunicaciones noruego Telenor), Drawbridge, Adelphic o Adbrain.
A la hora de entender la capacidad real de estos proveedores para proporcionarnos un dato cross-device de calidad necesitamos entender tres métricas diferentes (excelentemente explicadas en la web de Crosswise) que a menudo se interpretan erróneamente.
Accuracy
En muchas ocasiones la más utilizada al hacer referencia a la calidad de un modelo cross-device pero en realidad es la menos informativa de todas. La métrica de Accuracy nos proporciona una referencia de todos los dispositivos que el modelo ha sido capaz de identificar correctamente como vinculados o no vinculados a un usuario entre todas las posibles combinaciones de pares usuario/dispositivo posibles.
Y es precisamente ahí donde radica el problema de esta métrica al utilizar todas vinculaciones tanto positivas (o true positives, el dispositivo pertenece realmente al usuario) como negativas (o true negatives, el dispositivo efectivamente no pertenece al usuario) entre todas las combinaciones posible nos va a ofrecer un ratio que siempre va a estar muy cerca del 100%, sin embargo no nos va a decir nada sobre como de bueno es el modelo para predecir la vinculación entre usuario y dispositivo correctamente de entre todos los vinculos que hay en el set de datos, ni de que porcentaje de matches ha sido capaz de identificar. Para eso tenemos las siguientes dos métricas.
Precision
Nos va a proporcionar una referencia del porcentaje de dispositivos que el mapa de dispositivos (device mapping) ha sido capaz de identificar positivamente de entre todos los positivos y falsos positivos que había en el set de datos, es decir, como de acertado es el modelo a la hora de identificar un match entre usuario y dispositivo entre los matches reales. Su formula es la siguiente:
Recall o Reach
Por último la métrica de Reach nos va a proporcionar una referencia del porcentaje de asociaciones positivas usuario/dispositivo es capaz de identificar correctamente el modelo de entre todas las asociaciones reales hay en el set de datos.
Es precisamente entre estas dos últimas métricas donde tenemos un punto de partida para evaluar como es de bueno el modelo a la hora de identificar asociaciones entre usuarios y dispositivos tanto en términos de calidad, precision, como en términos de cantidad, reach.
[…] Sin duda el objetivo de ser capaces de establecer el mérito de cada punto de contacto tiene todo el sentido y debería convertirse en el punto de partida para hacer una distribución de nuestro presupuesto de manera más eficiente. Sin embargo, la realidad de la atribución es significativamente más compleja. Empecemos por la siguiente realidad: la mayoría de los modelos de atribución sofisticados del mercado, y por sofisticados quiero decir data-driven, no tienen en cuenta la realidad multidispositivo, o dicho en términos de atribución, la atribución Cross-Device. […]