Tribune de Muriel Glatin

RGPD : quels impacts pour les projets Data Science ?

Le RGPD impose de repenser les pratiques des entreprises en matière de traitements des données. Les projets conduits par les équipes Data Science sont directement concernés par ces nouvelles obligations.

Depuis le 25 mai 2018, il est donc désormais nécessaire pour les Responsables de Traitement de passer au crible leurs projets Data Science pour s’assurer de leur conformité.

Pour mémoire, un projet traitant de données personnelles ne répondant pas aux obligations du Règlement expose l’entreprise à des pénalités comme une sanction financière, la perte de contrat client, la suspension du dispositif critique, ou encore un impact d’image auprès de son public.

 

Concrètement et en résumé, voici les six actions que j’ai identifiées pour la mise en conformité d’un projet Data Science. Cette liste mérite bien évidemment d’être « challengée » et discutée. N’hésitez pas à me faire part de vos remarques et de vos premiers retours d’expérience !

 

1. Vérifier que le projet Data Science est soumis aux obligations du RGPD

Un traitement Data Science n’est pas forcément un traitement concerné par le Règlement. Un traitement algorithmique devra être conforme au RGPD dès lors qu’il…

  • Traite de données à caractère personnel concernant des personnes (particuliers et professionnel) de l’Union européenne. Les entreprises américaines par exemple proposant des services ou des solutions permettant de traiter des donner d’européens sont soumises au Règlement.
  • Est réalisé par une entreprise localisée dans l’UE. Une start-up française ayant développé un algorithme de prédiction pour le marché américain devra s’assurer de sa conformité RGPD.

Bonne pratique : Lorsque les données permettant l’identification des personnes ne sont pas nécessaires à la réalisation de l’analyse mathématique (nom, prénom, adresse postale, géolocalisation…), il sera utile de retenir le principe de livrer des données anonymes à l’équipe de Data Scientists. Le projet sort alors du champ d’application de la RGPD, la sécurité sur les données est maximale.

 

2. Organiser une réunion avec le DPO dès la conception du projet de Data Science

Le porteur du projet prend l’initiative d’organiser ce point d’échange avec le/la DPO et toutes les personnes clé intervenant sur le projet. Le brief au DPO devra exposer le plus clairement possible les contours du projet, sa finalité et les conditions de réalisation envisagées : la nature des données traitées, les personnes concernées, les outils mis en œuvre et la localisation des traitements, l’impact sur les personnes du traitement, les personnes mobilisées en interne et en externe.

Cette démarche consistant à traiter de la protection des données personnelles dès le lancement du projet incarne le principe de Privacy by Design, une des grandes nouveautés du Règlement. En effet, jusqu’à présent, il était fréquent de lancer les analyses mathématiques (segmentation, prédiction, clustering..) en se focalisant sur leur faisabilité technique et leur ROI, les questions relatives à la protection des données n’arrivant que très tardivement, lorsqu’elles étaient posées…

Sur la base de ces éléments, le DPO pourra valider la licéité du projet Data Science et décider, ou pas, de conduire une Analyse d’Impact selon son appréciation des risques.

 

3. Valider la licéité du projet Data Science

Les conditions de licéité des projets Data Science sont les mêmes que pour tout autre traitement de données personnelles, à savoir :

  • Il doit reposer sur une base légale qui pourra être la réalisation d’un contrat, le consentement ou l’intérêt légitime. Il semble néanmoins que l’intérêt légitime soit difficile à retenir à la lecture de l’avis porté par le G29 sur le sujet en 2014. Ce sera donc le consentement qui servira de base légale au traitement Data Science.
  • Il doit avoir un caractère licite, loyal et transparent
  • Le responsable de traitement doit rechercher l’exactitude des données collectées.
  • Cette exactitude doit être prise en compte à chaque étape du traitement Data Science, à savoir lors de la collecte, de l’analyse des données, de la construction d’un profil et lorsque le profil est utilisé pour la prise de décision concernant un individu.
  • Le responsable de traitement doit limiter la conservation des données.
  • La durée de conservation des données ne doit pas être plus longue que nécessaire pour atteindre la finalité recherchée.

Enfin, le Responsable du projet, avec le support du DPO, doit conduire une analyse d’impact dès que le traitement conduit par les Data Scientists présente un risque important sur la vie privée des données.

 

4. Evaluer le risque et décider de la réalisation d’une analyse d’impact

Tout traitement à risque doit donc désormais faire l’objet d’une Analyse d’Impact relative à la Protection des Données (AIPD). Cette analyse permet de vérifier que le niveau de sécurité du projet de Data Science est suffisant pour garantir la protection des données des personnes.

Pour évaluer ce risque, le DPO pourra s’appuyer sur la grille suivante qui liste, à date, 9 risques critique.

Grille d’évaluation des risques :
RISQUE NATURE DU TRAITEMENT DATA SCIENCE ET EXEMPLE RISQUE RELEVE
ÉVALUATION OU NOTATION Les activités de profilage et de prédiction.

Exemple : une entreprise analysant les usages ou la navigation sur son site Web pour créer des profils comportementaux ou marketing.

PRISE DE DÉCISIONS AUTOMATISÉE AVEC EFFET JURIDIQUE Tout traitement ayant pour finalité la prise de décisions à l’égard des personnes ayant un impact significatif sur elle.

Les traitements n’ayant que peu ou pas d’effet sur les personnes ne répondent pas à ce critère particulier.

Exemple : Procédure APB pour l’orientation des bacheliers

SURVEILLANCE SYSTÉMATIQUE Tout traitement utilisé pour observer, surveiller ou contrôler les personnes.

Exemples :

ü  La collecte de données via des réseaux

ü  La surveillance systématique d’une zone accessible au public.

DONNÉES SENSIBLES OU DONNÉES À CARACTÈRE HAUTEMENT PERSONNEL Tout traitement portant sur des données sensibles ou à risque (comme les condamnations) mais aussi des données renseignant sur des activités domestiques et privées.

Exemple : les données de localisation (À cet égard, il peut être pertinent de déterminer si les données ont déjà été rendues publiques par la personne concernée ou par des tiers)

DONNÉES TRAITÉES À GRANDE ÉCHELLE On retiendra la notion de grande échelle à partir de :

-le nombre de personnes en valeur absolue ou en proportion de la population considérée

-le volume de données

– la durée de l’activité de traitement de données

-l’étendue géographique de l’activité de traitement

CROISEMENT D’ENSEMBLES DE DONNÉES Les traitements visant à combiner des données ayant été collectées pour des finalités différentes et/ou par des entreprises différentes qui outrepasseraient les attentes raisonnables des personnes.
DONNÉES CONCERNANT DES PERSONNES VULNÉRABLES La notion de vulnérabilité fait référence dans ce contexte au rapport de pouvoir entre les parties. Seront ainsi considérés comme vulnérables les enfants, les employés, les personnes souffrant de maladie mentale, les demandeurs d’asile, les personnes âgées, les patients, etc.).
NOUVELLES SOLUTIONS TECHNOLOGIQUES OU ORGANISATIONNELLES Tout nouvel usage pouvant impliquer de nouvelles formes de collecte et d’utilisation des données dont les conséquences sur la vie privée des personnes sont encore inconnues.

Exemple : Un objet connecté renseignant sur la pratique d’exercice physuque de la personne

EXCLUSION DROIT OU SERVICE Tout traitement ayant pour effet d’empêcher les personnes d’exercer un droit ou de bénéficier d’un service ou d’un contrat.

Exemple : Scoring crédit

 

 

  • Plus un traitement coche de cases, plus il représente un risque élevé pour les personnes.
  • Tout projet affichant au moins 2 critères de risques devra faire l’objet d’une AIPD (mais l’entreprise pourra également décider de conduire cette mesure dès qu’un critère est rempli).
  • Les traitements data science doivent régulièrement être réexaminés, en particulier lorsqu’une fonctionnalité évolue, une nouvelle technologie est employée…
  • Pour les opérations Data Science antérieures au 25 mai, elles ne sont pas soumises à l’AIPD dès lors qu’elles ont déjà fait l’objet d’un examen ET qu’elles n’ont pas évolué dans leur principe général.

 

Voici les exemples donnés par le G29 en matière de marketing et de publicité indiquant la nécessité ou pas de conduire à une AIPD :

Combinaison des données publiques de réseaux sociaux pour créer des profils analyse d’impact NÉCESSAIRE
Envoi d’une newsletter à une mailing liste d’inscrits sur un site internet analyse d’impact NON NÉCESSAIRE

 

Publicité diffusée sur un site en fonction des résultats d’un profilage limité réalisé sur le comportement d’achat des utilisateurs dudit site analyse d’impact NON NÉCESSAIRE

 

 

5. Définir et appliquer des mesures de sécurité

Dans le cadre des projets Data Science, les données sont échangées, hébergées, manipulées via des outils de traitements souvent localisées en dehors de l’UE… autant d’opérations pouvant représenter un risque de violation. Pour représenter le chemin critique de la sécurité du projet, il sera utile de produire le schéma fonctionnel du projet en mode production et d’affecter en face de chaque étape du processus les mesures techniques et organisationnelles en matière de sécurité des données.

 

6. Définir les modalités permettant l’exercice du droit des personnes

D’abord, le Responsable de traitement doit mentionner l’usage de la Data Science parmi ses finalités dans ses notices d’information. Exclusion faite des méthodes de profilage ayant un impact significatif sur les personnes (profilage particulier), le G29 n’impose pas au Responsable de traitement de délivrer une information spécifique.

Lorsque les personnes demandent l’accès à leurs demandes, cela couvre non seulement l’accès aux données collectées mais également un accès à l’information calculée issue des travaux de Data Science, comme par exemple le profil constitué et le détail des segments dans lesquels la personne a été placée.

Le droit de rectification, et le droit à l’effacement, s’appliquent aussi bien aux données collectées qu’aux données issues de l’analyse (un profil par exemple).

Enfin, les personnes ont le droit de s’opposer à un traitement Data Science comme le profilage. En matière de publicité et de marketing, l’exercice de ce droit est inconditionnel. La personne qui l’exerce n’est pas tenue de justifier sa demande et le responsable de traitement ne peut pas s’y opposer.

 

Cette liste d’actions et de procédures peut inquiéter par la charge de travail qu’elle représente en amont des travaux de data science, avec le risque 1/ soit de ne pas être appliqué 2/ soit de freiner l’agilité et la créativité des équipes Data Science dans leurs travaux d’exploration et de test & learn…

Pour amoindrir cette inquiétude, on peut néanmoins penser que cette démarche va gagner en fluidité au fur et à mesure de la pratique, que certaines étapes comme l’AIPD pourra faire l’objet de mutualisation pour les traitements Data Science comparables et enfin, qu’en phase de running, les dispositifs déployés n’exigent plus qu’un contrôle périodique.

Keep Calm & comply with GDPR !

Muriel Glatin, DPO de Webedia

 

Contactez-nous pour en savoir plus ou découvrez nos webinars !

 

Une remarque ?

Laisser un commentaire

A lire aussi
Une question Data ? Échangeons sur le sujet !

Au moins 3 bonnes raisons de nous contacter :

  • prendre un café avec l’équipe
  • en savoir plus sur les sujets Data Marketing
  • relancer l’éternel débat : « Marketing ou IT » avec notre CTO…

Camp de Bases (Groupe Webedia)
114 rue chaptal
92300 Levallois Perret

01 85 09 76 65