Ce n’est plus un secret, on le dit, on le répète, la donnée est la matière première du XXIè siècle. La matière première constitue un paradoxe : sans elle, rien ne peut être construit. Mais brute, en tant que telle, elle est inutilisable. Elle est à la fois indispensable et inutile si non exploitée. 
 
Et ce qui est intéressant avec la donnée, à la différence d’une matière première classique comme l’or, c’est qu’il existe un effet de réseau : plus il existe de données disponibles, plus elles ont de la valeur car on peut alors établir des corrélations entre elles.
  • 1g d’or + 1g d’or = 2g d’or
  • 1 donnée + 1 donnée = 2 données + le lien entre ces deux données (corrélation) 
Mais à cela s’ajoute une étonnante complexité : la donnée constitue une partie de notre identité. Le genre, les données d’achats, la localisation.. sont autant d’infos qui nous caractérisent. Des informations personnelles. Parfois même sensibles.
 
Il en résulte que la donnée est non seulement propriétaire, mais même brute, doit être protégée et utilisée de manière responsable et transparente. Les entreprises se retrouvent donc face à un nouveau paradoxe : d’un coté, il faut obtenir des données massives pour améliorer et personnaliser les services mais d’un autre il faut également protéger ces données pour ne pas porter atteinte à la vie privée des utilisateurs. 
 
Pour assurer la protection des données, il existe le cryptage et l’anonymisation des données imposé désormais par le RGPD.
 
Ce procédé modifie les données de base et permet aux sociétés d’utiliser des services tiers en ne compromettant jamais les données d’origines. Mais aucun traitement algorithmique ne pouvait jusqu’alors être réalisé sur ces données. 
 
Cosmian, une jeune start-up française, co-fondée par Sandrine Murcia, ancienne directrice marketing Europe chez Google, Raphaël Auphan et Bruno Grieder, se propose de résoudre ce paradoxe grâce à une nouvelle solution. Avec le soutien de cryptographes de renommés mondiale, ils ont mis au point une technologie de cryptage de pointe capable d’effectuer des traitements sur des données entièrement cryptées. Les données confidentielles, une fois cryptées, le restent pendant le traitement et n’ont plus jamais besoin d’être révélées en clair.
 
Leur technologie repose sur 3 piliers majeurs : 
  • Un cryptage fonctionnel qui autorise le calcul sur des données cryptées
  • Un cryptage entièrement homomorphe qui convertit le traitement des données cryptées en résultats cryptés
  • Une enclave technologique sécurisée qui assure la protection des données 
Cette technologie ouvre un tout nouveau champ des possibles concernant le traitement massif de données. En effet, il est possible d’obtenir des infos sur les corrélations entre ces données sans jamais avoir connaissance des données sous-jacentes. Vous pouvez questionner ces données et obtenir des réponses (effectuer un traitement) sans jamais voir ces données.
 
Quelles applications concrètes ? 
 
D’un point de vue vertical, par exemple : 
  • Elle permet à différentes business units d’un même groupe dans le milieu de la banque/assurance de partager puis analyser des données confidentielles 
  • Elle permet d’améliorer les processus de KYC pour les banques grâce à la mutualisation des données et à leur cryptage 
  • Elle permet à des acteurs de la santé de partager leurs données pour créer de nouveaux services

D’un point de vue transverse, par exemple : 
  • Elle permet aux data scientists de joindre des bases de données sans jamais accéder aux données en clair
  • Elle permet aux data scientists d’appliquer et faire tourner des modèles algorithmique sur des données cryptées puis de déployer ces modèles 
Cette technologie, construite en partenariat avec la crème des scientifiques français issus des établissements de recherches les plus prestigieux tels que l’ENS Ulm, le CNRS et l’Inria, est une véritable révolution mathématique. Cosmian a levé 1,4M d’euros pour construire son produit et entre désormais dans une phase de commercialisation B2B.
 
Il existe un intérêt colossal pour les entreprises à partager leurs données afin d’établir des analyses plus granulaires.
Surtout dans des secteurs comme la santé où les données sont sensibles. Un acteur indépendant ne dispose pas d’assez de données pour créer de nouveaux services suffisamment personnalisés. Néanmoins, il existe encore des challenges d’explicabilité. S’il m’est impossible de découvrir la donnée sous-jacente, comment expliquer certaines réponses et donc certaines décisions ?