Table des matières

Illustration classification et gestion des données RH

Pourquoi la gestion des données RH passe aujourd’hui par leur classification dans le SI ?

Illustration classification et gestion des données RH

La gestion des données RH est longtemps restée un sujet discret, presque invisible dans les projets SI . Aujourd’hui, ce n’est plus le cas. Entre le RGPD, la cybersécurité et les attentes croissantes autour de l’analyse des données RH, la manière dont on structure, classe et gouverne ces données est devenue un enjeu central.

Pour en parler, nous avons échangé avec Jeremy PALACIOS, Data Manager au sein du cabinet de conseil Amoddex, qui accompagne les organisations dans la structuration et la sécurisation de leurs données RH au sein du système d’information.

Pourquoi la classification et la gestion des données RH est-elle devenue un sujet critique aujourd’hui ?

Très concrètement, parce que les données RH sont parmi les plus sensibles de l’entreprise. On y trouve des informations de santé, des coordonnées bancaires, parfois des données sociales ou personnelles. Et ce sont précisément ces données qui attirent les attaques.

Les services RH sont aujourd’hui des cibles privilégiées des campagnes de phishing, car la valeur des données est élevée et leur exposition peut avoir des conséquences humaines, juridiques et réputationnelles importantes.

Classer les données RH, c’est d’abord savoir ce que l’on protège, mais aussi ce que l’on conserve, ce que l’on archive et ce que l’on supprime. Sans classification, les données s’accumulent “au cas où”, par peur de perdre une information utile. Résultat : on augmente à la fois les risques juridiques et les coûts d’infrastructure, sans forcément s’en rendre compte.

Il y a aussi un enjeu très opérationnel. Lorsqu’un collaborateur quitte l’entreprise, encore faut-il savoir où se trouvent ses données pour pouvoir les purger. Si elles ne sont pas identifiées, certaines sont inévitablement oubliées.

Enfin, dès que l’on souhaite faire de l’analyse des données RH comme le turnover, l’absentéisme et l’égalité salariale par exemple, une donnée mal classifiée fausse les résultats. Sans une classification claire, on prend des décisions sur des bases fragiles.

Comment distinguer concrètement les données RH publiques, confidentielles et sensibles ?

Toutes les données RH n’ont pas le même niveau de sensibilité, et c’est précisément pour cela que la classification est indispensable.

On distingue généralement trois niveaux :

  • Les données publiques ne présentent aucun risque pour la vie privée ou la sécurité d’un individu si elles sont divulguées.
  • Les données confidentielles, qui constituent la grande majorité des données RH, peuvent en revanche porter préjudice à un collaborateur : rémunération, adresse, informations contractuelles ou évaluations internes.
  • Enfin, les données sensibles relèvent d’un régime très strict. Leur traitement est, par principe, interdit par le RGPD, sauf exceptions très encadrées. On pense notamment aux opinions politiques, aux convictions religieuses ou à certaines données de santé.

Ce qui est important à comprendre, c’est que les fuites de données sensibles sont rarement volontaires. Elles sont souvent liées à des usages mal maîtrisés : un commentaire trop précis dans un fichier, une mauvaise qualification de l’information ou un outil mal paramétré.

Quelles sont les données RH les plus critiques et souvent mal identifiées ?

On pense spontanément aux dossiers médicaux, mais dans la réalité, le risque vient souvent d’ailleurs.

Les données de santé les plus sensibles sont bien souvent indirectes. Un exemple très courant concerne les justificatifs d’absence. J’ai déjà vu des managers renseigner “dépression” ou “cancer” dans un fichier Excel, là où il aurait simplement fallu indiquer “maladie”. C’est une infraction grave au regard du RGPD, et elle est presque toujours involontaire.

Autre point de vigilance : les notes d’entretien ou de recrutement. Des mentions comme “accent marqué”, “problème de garde d’enfant” ou “fatigue” n’ont rien à faire dans des outils RH. Ce sont des informations personnelles, parfois discriminantes, qui ne devraient jamais être conservées.

Ces situations montrent bien que le problème n’est pas la mauvaise intention, mais l’absence de cadre clair. La classification des données RH permet justement de définir ce qui peut être collecté, conservé ou partagé… et ce qui ne doit jamais l’être.

En quoi la classification permet-elle de passer d’une conformité RGPD théorique à une conformité opérationnelle ?

La classification permet de rendre le RGPD concret. Elle donne des règles claires : durée de conservation, finalité, niveau de protection. Elle permet aussi de décider ce qui doit être archivé, conservé ou supprimé.

C’est à la fois un levier de conformité, de réduction des risques juridiques, et un moyen d’améliorer la qualité des données RH sur le long terme.

C’est précisément sur ce point que le rôle du data manager (lien https://www.amoddex.com/profils/data-manager/) prend tout son sens : traduire les exigences réglementaires en règles concrètes, compréhensibles et applicables dans les outils du quotidien. Chez Amoddex, nous intervenons régulièrement pour aider les organisations à passer de principes RGPD abstraits à une gouvernance réellement opérationnelle dans le SI.

Pourquoi est-il essentiel de structurer les données RH entre référentielles, opérationnelles, statiques et évolutives ?

En pratique, je commence toujours par expliquer qu’il existe deux grandes familles de données : les données référentielles et les données opérationnelles. Cette distinction est fondamentale, parce qu’elle conditionne à la fois la gouvernance, la qualité des données RH et leur usage dans le temps.

Les données référentielles structurent l’entreprise. Elles évoluent peu, mais elles sont essentielles : statuts, entités, postes, typologies de contrats… Ce sont des données de gouvernance, souvent utilisées comme points d’ancrage dans les outils. Elles peuvent être statiques ou évoluer, mais à une fréquence faible et maîtrisée.

À l’inverse, les données opérationnelles sont, par nature, vivantes. Elles changent au fil de la carrière du collaborateur : rémunération, temps de travail, absences, affectations. Et en RH, une donnée opérationnelle sans notion de temps n’a aucune valeur. Savoir qu’un salarié gagne 3 000 € n’a aucun sens si l’on ne sait pas depuis quand.

En complément de cette distinction, on parle aussi de données statiques et de données évolutives :

  • Les données statiques, issues du passé, comme la date de naissance ou la date d’embauche, évoluent peu voire pas du tout. Le vrai risque, c’est qu’une erreur de saisie au départ peut rester pendant des années, car la donnée ne sera jamais modifiée.
  • Les données évolutives, comme le salaire ou le temps de travail, évoluent tout au long de la carrière et doivent impérativement être historisées.

Quand cette structuration est claire, on gagne immédiatement en fiabilité. À l’inverse, sans classification, on se retrouve incapable de répondre à des questions simples comme « quel était l’effectif au 1er janvier ? ». C’est souvent à ce moment-là qu’une organisation fait appel à un data manager : pour construire un référentiel commun, poser des règles de classification et redonner de la cohérence aux usages. C’est typiquement dans ce contexte que nous accompagnons nos clients chez Amoddex, à travers notre offre de data management (lien https://www.amoddex.com/expertises/data-management/) : construction de référentiels communs, clarification des statuts de données RH et mise en cohérence entre usages métiers, reporting et exigences cyber.

Quels risques observes-tu quand cette structuration n’est pas claire ?

Les risques sont très concrets, et surtout, ils se manifestent vite dans le quotidien des équipes.

Le premier impact, on le voit souvent en reporting. Une question pourtant simple comme « quel était l’effectif au 1er janvier ? » peut devenir impossible à trancher si les données ne sont pas correctement structurées et historisées. Sans classification claire, on ne sait plus quelle donnée fait foi, ni à quel instant.

En paie, les conséquences peuvent être encore plus sensibles. Une donnée mal historisée ou mal qualifiée peut entraîner un mauvais calcul de rappel de salaire. Ce sont des erreurs qui coûtent du temps, de l’argent et qui dégradent la confiance des collaborateurs.

Sur le plan cybersécurité, l’impact est tout aussi important. Sans classification, les priorités deviennent floues. On finit par consacrer autant d’efforts à protéger des données référentielles, parfois publiques, qu’à sécuriser des données réellement critiques comme les RIB, les absences ou certaines informations contractuelles. Résultat : on disperse les moyens au lieu de les concentrer là où le risque est réel.

Quels sont les principaux points de vigilance liés aux sources, aux cibles et à la circulation des données RH ?

Tout commence par bien identifier ce qu’on appelle une source de données.
Un outil source, c’est là où la donnée est créée et saisie pour la première fois. Typiquement, en RH, c’est l’outil dans lequel un collaborateur est créé à son arrivée dans l’entreprise.

L’objectif, ensuite, est clair : éviter au maximum la ressaisie. Plus on ressaisit une donnée, plus on s’expose à des erreurs, des incohérences ou des pertes d’information. C’est pour cela qu’il est essentiel d’automatiser le transfert des données depuis les outils sources vers les outils cibles.

Cette automatisation passe généralement par des API, des interfaces techniques qui permettent à un système d’accéder à une donnée dans un autre système, de manière contrôlée et sécurisée. Quand les outils le permettent, c’est clairement la méthode à privilégier.

Mais automatiser ne suffit pas. Il y a plusieurs points de vigilance à garder en tête. D’abord, toutes les données ne se transfèrent pas de la même manière. Une donnée publique, confidentielle ou sensible n’implique pas le même niveau de contrôle. La classification joue ici un rôle clé : elle permet d’adapter les flux, les accès et les règles de sécurité à la nature de la donnée.

Ensuite, les outils sources doivent intégrer un maximum de contrôles : cohérence, complétude, formats attendus. Et si le système ne le permet pas nativement, il faut ajouter ces contrôles directement dans les flux de données.

Mais ces contrôles n’ont de valeur que s’ils sont supervisés dans le temps. Les flux de données doivent être monitorés afin de détecter rapidement les erreurs, les ruptures ou les incohérences entre les outils. Cette supervision permet d’alerter les responsables produits ou métiers concernés lorsqu’une donnée est en anomalie, et d’intervenir avant que l’erreur ne se propage dans l’ensemble du SI RH

Par où commencer pour mettre en place une classification des données RH ?

La première erreur serait de vouloir commencer par un outil. En réalité, tout démarre par le métier.

Ce que je recommande systématiquement, c’est de commencer par une série d’entretiens ou d’ateliers avec les responsables RH et les utilisateurs des outils.
L’objectif est double : recontextualiser la donnée dans le fonctionnement réel de l’entreprise, mais aussi identifier clairement qui en est responsable côté métier.

Ces échanges permettent non seulement de comprendre à quoi sert la donnée, comment elle est utilisée et par qui, mais aussi de désigner un data owner : une personne de l’organisation, ancrée dans le métier RH, qui sera garante de la qualité, de l’usage et du niveau de sensibilité de cette donnée dans le temps.

Sans cette responsabilité clairement portée par le métier, la classification reste théorique. Avec un data owner identifié, elle devient un véritable levier de gouvernance opérationnelle.

Pendant ces échanges, on se pose des questions très concrètes :
Quelle est la définition de cette donnée dans l’entreprise ? À quoi sert cette donnée ? Qui l’utilise ? À quel moment ? Pendant combien de temps ?

C’est à partir de là que l’on peut définir ce qu’est, pour cette organisation, une donnée publique, confidentielle ou sensible. En pratique, c’est déjà une forme d’audit qui pose les bases de la gouvernance de la donnée.

Et c’est important de le dire : on peut mettre en place une gouvernance des données RH sans outil data. Les outils viennent ensuite pour faciliter, industrialiser et sécuriser la démarche, mais ils ne remplacent jamais le travail de fond.

Concrètement, ces ateliers doivent réunir plusieurs profils :

  • Des représentants des métiers RH, qui manipulent la donnée au quotidien,
  • Des architectes techniques, pour comprendre les contraintes du SI,
  • Des data managers, pour structurer la démarche dans la durée.

Ensemble, on va définir les niveaux de criticité des données, lister les processus RH concernés, puis cartographier les flux de données entre les différentes applications.

Le rôle du data manager est alors clé : il doit proposer une gouvernance qui sécurise les échanges sans bloquer les usages. Et surtout, documenter cette gouvernance à travers un dictionnaire de données et une cartographie des échanges pour qu’elle soit comprise, partagée et applicable dans le temps.

Quels outils sont aujourd’hui les plus efficaces pour outiller cette démarche ?

J’utilise souvent DataGalaxy, notamment parce qu’il permet de constituer un véritable catalogue de données : dictionnaire de la donnée, cartographie des flux et compréhension des transformations entre les systèmes. C’est très utile pour rendre la donnée lisible et partageable.

Il existe bien sûr d’autres solutions comme Informatica, SAP Master Data Governance ou Oracle Cloud Infrastructure, qui s’inscrivent dans des démarches de Master Data Management.

Mais je le dis toujours : ce n’est pas l’outil qui fait la gouvernance. On peut très bien poser les bases d’une gouvernance de la donnée sans outil MDM. L’outil vient ensuite pour faciliter, structurer et pérenniser la démarche. Sans cadre clair et sans règles partagées, même le meilleur outil ne résout rien.

En résumé, que risque une organisation qui ne maîtrise pas la classification de ses données RH ?

Sans classification des données RH, l’organisation est à l’aveugle face à son patrimoine informationnel et s’expose à des risques juridiques, opérationnels et de pertes de confiance.

Jeremy PALACIOS, Data Manager chez Amoddex

À l’inverse, une bonne gestion des données RH améliore la conformité, renforce la sécurité, fiabilise l’analyse des données RH et garantit une meilleure qualité des données RH dans l’ensemble du SI.

Chez Amoddex, nous sommes convaincus que la gestion des données RH n’est pas un sujet purement technique. C’est un levier de performance, de conformité et de confiance, qui repose avant tout sur une gouvernance claire, incarnée par des rôles comme celui du data manager.

Parlons
de vos projets

Dans la même catégorie

Comment le data management fiabilise les données ?

Mettre en place une gestion rigoureuse des données n’est plus un simple enjeu technique, c’est...

Comment assurer la qualité des données ?

Dans un environnement économique où l’information circule à grande vitesse, la data quality est devenue...