La Boîte à Outils des Data Heroes

Les 5 grandes familles d’algorithmes (1/5)

Le Data Hero a une boite à outils remplie de technos et d’algorithmes, sans laquelle sa capacité d’analyse et de prédiction serait impossible. En y regardant de plus près, on observe différentes familles d’algorithmes qui vont lui permettre d’organiser son travail et ainsi de passer de la donnée brute, sans valeur pour le marketing, à une donnée propre (smart data) puis analysée (insights).

Tel est donc l’enjeu principal de ces algorithmes de valorisation de la data qui doivent permettre de faire 1) de la connaissance approfondie des client 2) de l’optimisation des actions d’activation.

 

Dans cet article, nous ferons un focus sur la 1° famille d’algorithmes dans la chaîne de valeur de la Data : les algorithmes de déduplication.

 

#1 ALGO_DEDUP – GARBAGE IN, GARBAGE OUT !

Dans un environnement où les sources de données se multiplient, la performance de la déduplication devient incontournable pour garantir la qualité de la donnée, et donc la fiabilité des analyses produites.

En effet, quel intérêt d’investir du budget dans un programme de fidélisation s’il est impossible de tracer un client tout le long de son parcours d’achat ? Et comment mesurer le ROI d’une campagne si la commande d’un client ne peut être rapprochée à l’action de prospection faite sur cette même personne via un autre canal ? Et comment prétendre faire de la Connaissance Clients, si la donnée dispersée sur un même individu ne peut être unifiée pour dessiner un profil 360° ?

La déduplication est donc l’étape incontournable pour :

  1. construire une vision unifiée de toutes les données des contacts, quelque soit les points d’interaction qu’ils activent avec la marque. (et éviter de traiter un client VIP comme un simple prospect !).
  2. disposer des volumes corrects en base (et éviter de compter en base un individu autant de fois qu’il apparaît selon ses sources de contacts).

Corollaire de la déduplication, la nécessité de définir des règles de priorité à accorder entre les sources de données lorsque celles-ci générant une même information. Par exemple : on donnera la priorité à l’adresse postale collectée via la source du site marchand, versus celle collectée via un jeu.

 

Mais réaliser une bonne déduplication est complexe, en particulier sur les données nominatives : en effet, il n’existe pas d’identifiant universel sur les individus (comme l’identifiant cookie sur les données online) qui permette de repérer les contacts dupliqués. Dès lors, la déduplication sur la seule correspondance exacte de l’adresse email, par exemple, ne peut malheureusement suffire. C’est pourtant cette règle qui équipe encore de nombreuses plateformes de données.

 

Le Data Hero utilise pour sa part un algorithme de déduplication AD-HOC, c’est-à-dire conçu spécifiquement pour l’entreprise pour laquelle il intervient. L’écosystème data des entreprises est en effet propre à chacune d’entre elles et les particularités de chaque activité ne peuvent justifier l’usage d’un outil de déduplication générique. Sur la base de cette connaissance métier, l’algorithme de déduplication va évaluer la « distance » entre 2 individus en procédant de 2 façons :

  1. confrontation de données telles que coordonnées, géolocalisation, comportements…
  2. acceptation d’une marge d’erreur plus ou moins stricte selon ses objectifs et le coût de l’erreur.

Les individus les plus proches seront alors considérés comme identiques et dédupliqués. La base clients (CDP) sera alors prête à l’analyse et à l’activation marketing et publicitaire.

 

Dans le prochain article, on prendra le temps de présenter les algorithmes permettant d’enrichir les bases clients de données externes ou de données incomplètes.

 

Muriel Glatin

Une remarque ?

Leave a Reply

A lire aussi