Aujourd’hui l’Intelligence Artificielle (IA) se révèle être un outil intéressant pour venir  soutenir ces recherches et potentiellement favoriser une plus grande efficacité dans leur conduite. L’IA et la génétique partagent alors les mêmes espoirs et les mêmes craintes à des niveaux différents. Leur combinaison pourrait donc susciter encore davantage d’espoirs comme de craintes.

La thérapie génique consiste à introduire du matériel génétique dans des cellules pour soigner une pathologie. D’abord conçue pour remplacer un gène défectueux, ces thérapies ont rapidement évolué et peuvent être amenées à traiter de nombreuses pathologies telles que des cancers, des maladies neuromusculaires (comme l’amyotrophie spinale infantile), ophtalmiques, hématologiques (comme les hémophilies), dermatologiques, neurodégénératives, des déficiences immunitaires sévères, etc. Tant et si bien qu’aujourd’hui, il existe sur le marché plusieurs médicaments de thérapie génique, notamment en Europe, aux Etats-Unis et en Chine.


Une des techniques particulièrement prisée dans les recherches en matière de thérapie génique est l’édition génomique, qui consiste à éliminer ou réparer des mutations génétiques de façon ciblée, directement dans la cellule. Parmi les techniques utilisées, on trouve en bonne place les outils CRISPR. Bien qu’encore expérimental, la simplicité du système CRISPR suscite de grands espoirs et fait l’objet de plusieurs essais cliniques.

En dépit de ses premiers succès, ce champ de recherche se heurte aujourd’hui à plusieurs difficultés, comme un manque de prise de recul qui permettrait de mesurer de possibles d’effets indésirables dans le temps, la production à échelle industrielle de matériels vivants qui permettent de mettre en œuvre ces thérapies, et bien entendu le prix (et donc l’accessibilité) des médicaments qui peuvent coûter plusieurs centaines de milliers, voire plusieurs millions d’euros   

Le prix s’explique par l’investissement, en temps et en moyens, que demandent ces recherches, ainsi que par le petit nombre de malades pour chaque pathologie génétique (maladies orphelines ou rares). Ainsi faute de débouchés commerciaux suffisants,  les recherches sont essentiellement menées  par les laboratoires publics ou des start-up biotechnologiques. En France, ces recherches sont le plus souvent financées grâce au Téléthon.

Au-delà des considérations techniques et économiques, la dimension éthique survient aussi fréquemment, avec le spectre de potentielles modifications génétiques qui porteraient atteinte à l’intégrité du génome humain.

Nous avons cherché à mieux comprendre ce curieux mariage en interrogeant David Del Bourgo, CEO de WhiteLab Genomics. Cette start-up française, tout juste créée en 2019, fait partie des 40 start-up les plus prometteuses de 2019 au sein de Station F.

Son objectif est de développer un outil d’IA pour réduire le coût des médicaments de thérapies géniques. M. Del Bourgo atteste du fait que le domaine de l’ingénierie génétique est en pleine explosion depuis 2014, notamment avec la technique CRISPR-Cas9. Des sociétés se créent régulièrement  pour traiter d’une problématique génétique donnée, basée sur cette technologie.

Le coût élevé de ces recherches (plus d’un milliard d’euros) est selon lui notamment dû au temps de développement très long, de l’ordre de 15 ans. Ce délai s’explique par la complexité des données à traiter. En effet, quand on modifie quelques paires de bases du génome humain, les scientifiques font face à des millions de possibilités et d’hypothèses à résoudre. Ils procèdent alors avec un raisonnement exploratoire fait d’itérations (essais et erreurs), progressant ainsi lentement.  Cette phase de réduction des risques est long et parfois, les scientifiques ne dépassent pas cette étape. WhiteLab Genomics a donc vocation à employer les technologies d’intelligence artificielle pour réduire ce temps, et donc le coût de cette phase de recherches.

Le nombre de données à analyser et traiter (plusieurs dizaines de millions) rend l’opération humainement impossible (ou du moins imparfaite), même si l’équipe est compétente et renforcée. De plus l’équipe de recherche n’a pas l’historique complet et exhaustif de ce qui a été fait auparavant dans d’autres laboratoires, toutes les données exploratoires n’étant pas publiées. Elle ne dispose pas non plus de modèles prospectifs qui lui permettraient d’opter pour le parcours de recherche le plus optimal.

Le premier objectif de la start-up est alors de proposer à ses clients un outil leur permettant de récupérer toutes les informations du domaine de recherche (les publications scientifiques, textes, images, codes génétiques, données sur les combinaisons liées à la maladie en question, etc…). Les moteurs d’intelligence artificielle recueillent ainsi toute la donnée disponible, l’analysent et la classifient selon leur pertinence, grâce à des algorithmes éduqués. Divers outils sont utilisés et combinés pour rendre ces algorithmes toujours plus performants, tels que le traitement automatique du langage naturel (NLP), l’analyse d’image, l’interprétation de données, le machine learning…

L’éducation des algorithmes est l’étape de départ cruciale. Elle est réalisée avec un biologiste spécialisé dans la thérapie génique, qui vérifie le traitement de l’information par les robots. La machine va ainsi apprendre à parfaire ses scores de pertinence (classification des données d’intérêt) en fonction de l’appréciation que fait le biologiste au fil de ce processus. Comme le souligne M. Del Bourgo, l’avantage du domaine de la génétique réside en ce que le vocabulaire est très spécifique et peu générique: cela limite d’autant les erreurs d’interprétation des robots et donc le tri qui est à opérer. Il n’y a pas non plus différents niveaux de langages par exemple, ou de subtilités linguistiques élevées.

Ces robots, une fois éduqués, sont en mesure de procéder à la collecte exhaustive des données sur l’état de l’art et au traitement des requêtes en quelques secondes, là où un humain mettrait quelques années pour n’en traiter qu’une partie.

Le prochain défi de la start-up sera de développer un modèle prédictif qui permettrait de conseiller les équipes de recherche sur les voies optimales d’exploration à emprunter selon leur problématique, pour réduire le nombre d’itérations. Ce modèle demanderait la mise en place d’un programme de collaboration avec différentes sociétés de biotechnologie ou laboratoires. Sur la base de leurs données de recherche, propres à chacune, tout en garantissant leur confidentialité, une machine d’apprentissage fédéré serait ainsi développée.

Idéalement, WhiteLab Genomics aimerait diviser par deux le temps de cette phase de recherche exploratoire.

Compte tenu de la jeunesse de ce champ de recherche, un des défis relevés par M. Del Bourgo réside dans le besoin d’organisation de la donnée de recherche.

Les autres verrous consistent dans l’accès aux données bien entendu, puisque le développement d’IA performantes demande d’accéder à un large flot de données qualifiées. Compte tenu du domaine de recherche très ciblé, les lots de données sont encore de taille plutôt réduite. De plus, élaborer un modèle d’apprentissage fédéré, sans pouvoir s’assurer de la bonne qualité des données confidentielles de chaque acteur, peut induire un biais qui peut s’avérer important. Reste également à convaincre les sociétés de biotechnologie de jouer ce jeu collectif pour que la communauté scientifique bénéficie des retours d’expérience des uns et des autres, pour peu que le modèle aspire suffisamment confiance et ait fait ses preuves.

Nous voyons ici que l’IA est essentiellement vue comme un outil venant en soutien aux chercheurs dont l’attention est toute concentrée sur la guérison d’une pathologie donnée. Elle doit certes être manipulée et éduquée avec pertinence et clairvoyance, mais le risque éthique à proprement parler ne semble pas être un sujet d’inquiétude étant donné que son rôle reste technique et limité à la phase exploratoire des recherches.