Newsletter Orkyn' Article n°3

Newsletter Orkyn' - Avril 2024

Intelligence artificielle dans les déficits immunitaires primitifs

Par Dr Nizar Mahlaoui

Rivière JG, Soler Palacín P, Butte MJ. Proceedings from the Inaugural Artificial Intelligence in Primary Immune Deficiencies (AIPID) conference. J Allergy Clin Immunol. 2024 Jan 13:S0091-6749(24)00033-2. doi: 10.1016/j.jaci.2024.01.002. Online ahead of print. PMID: 38224784

Les déficits immunitaires primitifs (DIP, ou aussi appelés héréditaires, DIH) sont un large et hétérogène groupe de maladies génétiques rares du système immunitaire conduisant à un risque accru de complications de nature infectieuse, auto-immune, inflammatoire, allergique, granulomateuse, lymphoproliférative bénigne ou maligne. Ils peuvent affecter l’immunité innée et/ou l’immunité adaptative (humorale et/ou cellulaire) chez les enfants comme chez les adultes. Il y a donc une grande variabilité dans le mode de présentation et le profil évolutif des patients avec un DIP/DIH.

L’usage de méthodes statistiques avancées basées sur des calculateurs de plus en plus sophistiqués ont permis de développer des outils puissants (appelés ‘intelligence artificielle’ ou machine apprenante — ‘machine learning’). Leur usage dans des domaines de plus en plus nombreux, et notamment dans le champ médical, permet de relever un certain nombre de défis qui se posent aux professionnels de santé et aux patients, notamment ceux d’accélérer et améliorer le diagnostic.

L’enseignement aux étudiants comme celui des algorithmes est basé sur l’identification de symptômes, signes cliniques et paracliniques habituels (avec un intervalle de confiance raisonnable). Or, dans le cas des DIH, le tableau clinique est assez souvent unique au patient et chaque patient peut présenter une toute petite partie du tableau clinique ‘princeps’, lequel évolue au gré de l’amélioration des connaissances et de la description de phénotypes nouveaux. Ainsi, les patients avec un Syndrome Hyper IgE (de Job-Buckley, par mutation perte de fonction du gène codant pour le facteur de transcription STAT3) peuvent n’avoir qu’une partie du large tableau pouvant faire évoquer ce diagnostic. Ceci induit souvent un retard au diagnostic et une perte de chance potentielle pour le patient voire son entourage.

Les données médicales de santé (notamment celles présentes dans les comptes rendus médicaux) représentent une source très utile pour les outils d’intelligence artificielle. Comment leur faire apprendre qu’un patient avec des infections sino-pulmonaires récurrentes et un autre avec une anémie hémolytique auto-immune ont en fait le même diagnostic de DIH (par ex. : Déficit Immunitaire Commun Variable, DICV, ou un Déficit Immunitaire Combine, DIC) ? Par ailleurs, il existe un recouvrement important (‘overlap’) de symptômes (en effet, il existe un petit nombre de signes pathognomoniques). Ceci induit une certaine difficulté à entraîner efficacement les algorithmes d’identification diagnostic. Les approches actuelles utilisent des données réelles de patients (et non des cas cliniques extrêmes ou caricaturaux) qui vont ensuite alimenter les outils et les entraîner/éduquer à reconnaître des motifs récurrents (‘patterns’) donnant un poids spécifique à chaque signe ou combinaison de signe. Pour cela, les outils de traitement du langage naturel (Natural Language Processing, NLP) sont prometteurs. Ces logiciels peuvent analyser le texte naturel, c’est-à-dire non standardisé, tel que saisi par les professionnels de santé dans les comptes rendus médicaux, opératoires, d’imagerie, d’anatomopathologie), mais aussi en combinaison avec des éléments standardisés (tels que des données brutes de résultats biologiques, d’imagerie, d’anatomopathologie).

Ces termes sont ensuite comparés à des termes standard appelés ‘phecodes’ issus du catalogue d’ontologie phénotypiques humaine (Human Phenotype Ontology, HPO), ce qui permet leur traitement informatique et statistique pour établir des similarités, ce qui permet par exemple, d’interroger un entrepôt de données de santé pour rechercher des patients sans diagnostic posé et qui ont un tableau clinique proche, ce qui permet de réduire le délai diagnostique chez eux. En effet, si le score de risque calculé sur la base de poids pour chaque signe indique une probabilité élevée de DIH, le patient peut ensuite être orienté vers le spécialiste qui proposera les tests appropriés (incluant les analyses génétiques pertinentes). Différents travaux utilisant différents modèles statistiques et computationnels (algorithmiques ± associés d’avis d’experts) ont déjà permis d’identifier certains signes d’alerte associés à un diagnostic de DIH (dilatation des bronches, maladies auto-immunes, splénomégalie, pneumopathie interstitielle, cytopénies auto-immunes et infections récurrentes, notamment pneumopathies à pneumocoque) et que cela a permis de réduire le délai diagnostique de 1 à 3 ans.

Devant le peu de données complètes en vie réelle pour les patients avec des maladies rares, il reste encore des défis pour affiner les scores pour des DIH précis (par exemple, déficit en STAT1-gain de fonction où dont le tableau clinique est extrêmement variable). Des outils permettant de collecter ces données vont être décisifs pour améliorer cet aspect.

Du reste, au niveau international, des différences sous-continentales régionales existent dans l’accès au soin, dans l’informatisation des données de santé, dans le tableau clinique (par exemple, les BCGites qui ne se voient presque plus dans les pays où le BCG n’est plus systématiquement réalisé, ou des infections fongiques endémiques en Asie, ou en Amérique latine).

Enfin, des considérations éthiques sont importantes à garder en tête : sécurité des données de santé et des données personnelles — ce sont des données dites « sensibles ». Les algorithmes comprennent potentiellement des biais pouvant conduire à des discriminations (de genre, ethniques, socio-économiques, d’accès aux ressources de santé digitale…).