IA ET RECONNAISSANCE D’IMAGE - Clinic n° 02 du 01/02/2025

Aller au contenu
Aller à la navigation

Clinic n° 02 du 01/02/2025

Dossier

Auteur(s) : Matthieu PÉRARD* Marie Agnès GASQUI** Fabien MILLIOZ***

Fonctions :
*Université de Rennes, INSERM, LTSI-UMR 1099, Rennes CHU, Rennes
**MCU-PH Université Lyon 1, UFR Odontologie, Laboratoire Multimatériaux et Interfaces (UMR CNRS 5615), Hospices Civils de Lyon
***CREATIS (Centre de Recherche en Acquisition et Traitement de l’Image pour la Santé) - CNRS UMR 5220 - INSERM U1294 - Université Claude Bernard Lyon 1 - INSA Lyon - Université Jean Monnet Saint-Etienne

Les réseaux de neurones convolutifs (CNN) sont les algorithmes d’intelligence artificielle (IA) les plus utilisés actuellement en imagerie. Leurs progrès sont fortement corrélés aux développements de processeurs graphiques toujours plus puissants et à la massification des données d’imagerie. Leur entrainement nécessite de leur fournir de grandes quantités d’images qui doivent être annotées au préalable quand il s’agit d’apprentissage supervisé. Les CNN sont particulièrement employés pour détecter, classifier ou encore segmenter des lésions ou des structures anatomiques. Leur fonctionnement est basé sur une architecture constituée d’une alternance de différents types de couches de neurones. Les réseaux d’architecture U-net sont très utilisés en imagerie car ils se montrent très efficaces dans les tâches de segmentation. L’aide apportée par les CNN au praticien est précieuse et leurs prodigieux progrès ne doivent pas faire oublier que le praticien doit conserver son expertise pour contrôler la justesse du diagnostic.

Elle aide au pilotage des voitures (quand elle n’en a pas déjà pris le contrôle), elle détecte et reconnait des visages, identifie des végétaux ou des étoiles, la vision par ordinateur a définitivement colonisé nos vies et conquis nos smartphones. La vision par ordinateur utilise des méthodes d’intelligence artificielle (IA) pour acquérir, traiter, analyser et comprendre les données visuelles numériques afin d’en extraire de la connaissance ou conduire à une prise de décision [¹]. L’apprentissage profond (Deep Learning) fonctionne sur la base d’une architecture de réseaux de neurones artificiels. Ces réseaux constituent une famille parmi d’autres, d’apprentissage automatique (^{figure 1}).

Les réseaux de neurones sont utilisés pour analyser des images médicales comme les radiographies ou les IRM. Leur principale qualité est de pouvoir attirer l’attention du praticien sur ce qu’il n’arrive pas à voir seul - l’élément est par exemple trop petit, ou pas assez contrasté - et ainsi d’augmenter la sensibilité et la rapidité des examens. En outre, par son analyse systématique de l’image, l’IA est aussi en mesure d’éviter au radiologue ou au chirurgien-dentiste de passer à côté de certaines anomalies discrètes lorsque leur attention est focalisée sur une lésion plus évidente. À titre d’exemple, certains réseaux d’apprentissage profond affichent une exactitude supérieure à 95 % quand on leur demande de distinguer les mélanomes des grains de beauté bénins à partir d’images de dermatoscopie [²]. Les algorithmes d’IA peuvent aussi aider à prédire l’évolution de maladies chroniques, comme le diabète ou les maladies cardiovasculaires, en analysant les données des patients.

Même si l’imagerie dans le champ de l’odontologie accusait jusqu’ici un certain retard par rapport à d’autres domaines de l’imagerie médicale, de plus en plus d’industriels du secteur dentaire commercialisent maintenant des logiciels ayant recours à des algorithmes d’IA. Comme le recommande donc la FDI dans une récente déclaration, il appartient désormais à chaque chirurgien-dentiste de s’acculturer avec les avantages et les limites de ces nouvelles applications auxquelles ils n’ont pas forcément été formés durant leurs études [³].

QUELQUES ÉLÉMENTS HISTORIQUES

L’avènement des réseaux de neurones convolutifs (CNN) à la fin des années 70 a révolutionné les techniques de reconnaissance d’image. En ayant l’idée de s’inspirer des neurones du cortex visuel des mammifères, Fukushima a jeté les bases des CNN en inspirant le développement d’algorithmes plus rapides et plus efficaces [⁴]. L’optimisation des méthodes d’entrainement de ces algorithmes, avec notamment l’introduction du concept de rétropropagation des erreurs, a joué un rôle majeur dans l’amélioration de leurs performances.

Le domaine de la robotique doit lui aussi beaucoup aux progrès de la vision par ordinateur. Les flux vidéo de leurs caméras sont analysés par des algorithmes d’IA pour les aider à détecter les obstacles, reconnaitre des objets, choisir la meilleure trajectoire…

Par ailleurs, ces technologies ont trouvé des débouchés moins en vue dans le domaine du contrôle qualité dans l’industrie - par exemple pour vérifier l’absence de bulles dans les cartouches d’anesthésiques - dans la vidéosurveillance, mais aussi pour de nombreuses applications militaires comme le guidage des missiles.

Deux sauts technologiques ont conduit à la popularisation de l’emploi des CNN en vision par ordinateur et au développement des nombreuses applications proposées aujourd’hui. D’abord en 2005, Dave Steinkraus et al. publient un article qui souligne l’intérêt des processeurs graphiques (GPU pour Graphics Processing Unit) pour l’accélération des calcules nécessaires au fonctionnement des CNN [5]. Encore récemment, les tâches liées à l’apprentissage automatique étaient exécutées par le processeur principal des ordinateurs (CPU pour Central Processing Unit). Les processeurs CPU sont très rapides et peuvent être mobilisés pour des activités variées, mais ils ne peuvent effectuer qu’un nombre limité de tâches de manière concomitantes car ils ne comportent qu’une petite quantité de « cœurs » (entre 6 et 24 pour les processeurs récents). Or grossièrement, un processeur peut effectuer autant d’activités simultanées qu’il a de cœurs. Inversement, les GPU sont moins flexibles quant aux tâches à effectuer mais ils disposent d’une architecture parallèle comportant plusieurs dizaines de milliers de cœurs, ce qui leur permet d’effectuer beaucoup plus de tâches très spécifiques simultanément. En résumés, les GPU sont parfait pour entrainer et faire tourner des algorithmes d’apprentissages profond car ils sont taillés pour effectuer de très grandes quantités de tâches répétitives rapidement et simultanément.

Le deuxième élément qui a permis l’accélération vertigineuse des progrès de l’IA c’est l’accroissement exponentiel des données d’entrainement disponibles via le big data. La démocratisation de la photographie numérique dans les années 1990, puis la diffusion massive de ces images sur internet via les réseaux sociaux à partir des années 2000 a permis aux géants du net de constituer des banques de données photographiques (on parle de datasets) de taille considérable. Et c’est cet accès aux données massives qui a permis à ces mêmes acteurs d’entrainer des algorithmes d’apprentissages profonds, jusqu’à ce qu’ils atteignent des performances remarquables. Par exemple, SAM 2, le successeur du Segment Anything Model (SAM) développé par Meta, est un outil de pointe conçu pour la segmentation complète d’objets dans les images et les vidéos. Il excelle dans le traitement de données visuelles complexes grâce a` une architecture de modèle unifiée et paramétrable.

Des algorithmes similaires ont été mobilisés pour offrir des solutions innovantes en matière de détection et de segmentation en imagerie médicale. Cependant, la plus faible quantité de données disponibles, par rapport aux milliards de photos sur lesquelles peuvent s’entrainer les algorithmes de détections généralistes, ont conduit des chercheurs à développer des modèles de réseaux plus adaptés aux problématiques médicales. D’autres équipes ont adopté une stratégie différente, l’apprentissage par transfert (transfer learning), en sélectionnant des réseaux très robustes déjà entrainés sur de la photographie tel que SAM 2 et en les réentraînant sur des datas sets d’imagerie [⁶]. A noter que pour entrainer correctement leurs algorithmes, malgré la faible quantité de données d’imagerie disponibles, certains chercheurs ont recours à la technique de l’augmentation de données. Il s’agit de créer artificiellement de nouvelles images, par exemple en effectuant des rotations ou des retournements d’images déjà présentes dans le jeu de données.

L’ENTRAINEMENT DES RÉSEAUX DE NEURONES

Pour qu’un réseau puisse analyser efficacement un jeu de données d’imagerie, il faut d’abord qu’il soit entraîné à reconnaitre, et éventuellement interpréter, les données d’intérêt. Les chercheurs commencent donc par fournir des données d’entrainement au réseau. Plus les images sont nombreuses et variées, plus l’apprentissage sera efficace. Il existe principalement deux méthodes pour entraîner un réseau : l’apprentissage supervisé et l’apprentissage non supervisé.

Apprentissage supervisé

Dans l’apprentissage supervisé, le modèle apprend à partir d’un ensemble d’images étiquetées, c’est-à-dire que chaque photo ou radiographie est annotée au préalable, généralement par un expert en imagerie. Par exemple, si l’objectif est d’entraîner un modèle pour reconnaître des images de chiens, il faut lui fournir des images étiquetées contenant des chiens de toutes races (de préférence sous des angles et dans des positions variées) et d’autres qui en seront dépourvues.

Le modèle utilise ensuite ces exemples pour apprendre des critères statistiques qui distinguent les chiens des autres animaux. Lors des premiers passages des images à travers les filtres du réseau de neurones, celui-ci va l’analyser et la classer en « chien » ou « pas un chien » puis confronter sa prédiction à la vérité terrain notée sur l’étiquette par l’expert. Comme au début il ignore à quoi ressemble un chien, il va beaucoup se tromper. Mais à chaque fois qu’il constate qu’il a commis une erreur, il va tenter de la corriger, en modifiant les paramètres (encore appelés « poids ») des neurones du réseau. Au fil des passages, et si l’apprentissage fonctionne, ses résultats vont s’améliorer progressivement, jusqu’à ce qu’il atteigne des scores satisfaisants. Une epoch (ou époque) désigne un passage complet de l’ensemble du jeu de données d’entrainement à travers le réseau. Le nombre d’epoch nécessaire à l’entrainement du réseau sera fonction de la difficulté de la tâche à accomplir. Le réseau évalue ensuite ses performances en analysant un jeu de données tests, données différentes des images d’entrainement.

Apprentissage non supervisé

Dans l’apprentissage non supervisé, le modèle apprend à partir d’un ensemble d’images non étiquetées. Cela signifie que le modèle doit trouver des structures ou des anomalies dans les données par lui-même, sans aucune indication sur ce qu’il devrait rechercher. L’objectif de l’apprentissage non supervisé est souvent de regrouper les exemples de données similaires en clusters, en réduisant la dimensionalité des données, en détectant des anomalies ou en apprenant une représentation compacte des données. Si l’apprentissage non-supervisé nécessite un jeu de données d’entrainement très conséquent qu’il peut être fastidieux de rassembler, la méthode fait ensuite gagner du temps aux chercheurs car ils n’ont pas à procéder à l’étiquetage des données.

LA CLASSIFICATION

En imagerie médicale, l’IA a d’abord été sollicitée pour classer des images. Concrètement, un examen d’imagerie est fourni à l’algorithme et il donne alors un avis diagnostic, généralement binaire, en classant l’examen en « normal » ou « pathologique ». L’avènement de l’apprentissage profond a ensuite permis d’augmenter significativement l’efficacité de ces applications. C’est pourquoi bon nombre de publications récentes rapportent l’utilisation d’algorithmes d’apprentissage profond pour des tâches de classification [⁷]. Les réseaux convolutifs sont entrainés sur une banque plus ou moins importante d’examens d’imagerie. Pour pallier à la faible disponibilité des données d’entrainement, certains chercheurs ont entrepris d’utiliser des réseaux d’analyse d’images déjà existant, hors champs de l’imagerie médicale. Cette stratégie, l’apprentissage par transfert, consiste à affiner, avec un dataset d’examens d’imagerie étiquetés, des réseaux déjà très bien entrainés sur des images génériques. Les modèles pré-entraînés sur des ensembles de données massives ont déjà appris à bien distinguer certaines caractéristiques générales qui sont souvent applicables aux images médicales, telles que les bords et les textures, améliorant ainsi la capacité de généralisation du modèle. En fournissant un ensemble initial de poids déjà bien ajustés, l’apprentissage par transfert rend les modèles plus robustes lorsqu’ils sont formés sur de petits jeux de données, réduisant ainsi le risque de surapprentissage. Le surapprentissage est un défaut du réseau qui peut apparaitre lors de son entraînement, en particulier lorsque le dataset est de taille insuffisante. Le CNN, alors surentraîné sur son jeu d’apprentissage, se retrouve incapable de généraliser ses performances aux nouvelles images qui lui sont soumises, puisqu’il a appris “par cœur” les sorties sur le petit jeu d’apprentissage.

Autre avantage non négligeable, l’apprentissage par transfert réduit significativement le temps d’entrainement du réseau. Cependant, l’essentiel des données d’imagerie étant affichées en niveaux de gris, les modèles d’apprentissage par transfert, initialement entrainés sur des images génériques en couleur, peuvent manquer de pertinence. Et par ailleurs, ils ne sont pas du tout entraînés à analyser l’imagerie tridimensionnelle, pourtant essentielle en radiologie.

Les performances des réseaux de neurones en matière de classification sont évaluées par un certain nombre de métriques. Aux classiques sensibilité et spécificité, viennent souvent s’ajouter l’exactitude (accuracy) et la précision. L’accuracy (l’exactitude en français) évalue le nombre d’examens correctement classifiés (positif et négatif) sur le nombre total d’examens. Attention, elle est parfois traduite improprement en français par le terme « précision », qui lui désigne le nombre d’examens correctement classifiés comme positif sur l’ensemble des examens classifiés comme positifs. L’ensemble des métriques fréquemment rencontrées dans les articles scientifiques sont recensées et explicitées dans l’annexe 1 de ce dossier en pages 56 et 57.

En résumé, la technologie CNN est devenue la méthode la plus efficace pour la classification des examens et ses résultats surpassent souvent les experts humains dans l’accomplissement de certaines tâches.

LA DÉTECTION

La détection d’objet fait partie des tâches qui ont été confiées de longue date aux algorithmes d’IA. Ces technologies font recette dans le domaine de la vidéosurveillance et prolifèrent dans les applis pour smartphones. L’introduction de l’algorithme You Only Look Once (YOLO) par Redmon et al. en 2015 a révolutionné le domaine en concevant la détection d’objets comme un problème unique de régression, ou` un réseau neuronal convolutif traite une image entière en une seule passe pour placer les boites englobantes autour des objets marqués et les probabilités qu’ils appartiennent à cette classe d’objet [⁸].

Les algorithmes d’IA permettent la localisation d’objets anatomiques et de lésions. Correctement entrainés, ils permettent par exemple de détecter des lésions carieuses sur les radiographies intra-orales [⁹]. Il est possible de détecter des organes ou des points de repère, tels que les repères céphalométriques. La détection d’objet par IA peut aussi constituer une étape de prétraitement, par exemple avant une étape de segmentation. Les objets détectés sont généralement marqués par une boite englobante (^{figure 2}).

La localisation en imagerie médicale nécessite souvent l’analyse de volumes 3D. Pour résoudre l’analyse des données 3D avec des algorithmes d’apprentissage profond, plusieurs approches ont été proposées pour traiter l’espace tridimensionnel comme une composition de plans orthogonaux. De Vos et al. ont ainsi localisé des régions d’intérêt (ROI) autour de régions anatomiques (cœur, arc aortique et aorte descendante) en identifiant une boîte englobante 3D après l’analyse 2D du volume tomographiques 3D [¹⁰]. La détection des microhémorragies dans le tissu cérébral est une tâche fastidieuse pour les radiologues. Dou et al. ont proposé une architecture CNN 3D en deux étapes entièrement connectées pour les détecter à partir de données d’images IRM [¹¹]. Le réseau a permis de réduire le nombre de faux positifs. Cette méthode avait une sensibilité de 93 % et surpassait les méthodes de détection déjà existantes.

La localisation à l’aide de CNN semble donc être la méthode d’avenir pour identifier efficacement les organes, les lésions et les points de repère anatomiques.

LA SEGMENTATION

Depuis plusieurs années, les réseaux de neurones aident les radiologues à segmenter les images médicales, telles que les mammographies du cancer du sein, les tumeurs et les lésions cérébrales, du poumon, etc. Des algorithmes ont aussi été entrainés pour segmenter les dents et les structures anatomiques d’intérêt, telles que le canal mandibulaire, à partir de radiographies panoramiques ou de CBCT [¹²]. La segmentation permet non seulement de se concentrer sur des régions spécifiques du cliché, mais elle aide également les radiologues à procéder à une évaluation quantitative (mesure du volume et de la forme) et à planifier un traitement ultérieur [¹³]. Pour segmenter, l’algorithme cherche à identifier l’ensemble des pixels ou des voxels qui composent soit le contour, soit l’intérieur des objets d’intérêt [¹⁴]. La segmentation est actuellement le sujet le plus courant des articles appliquant l’apprentissage profond à l’imagerie médicale. Elle a permis de développer des applications permettant l’analyse et la mesure volumétrique des tissus : Huo et al. ont utilisé les propriétés d’un CNN 3D entièrement connecté pour la segmentation de cerveaux entiers sur des images multisites à haute résolution [¹⁵].

La segmentation des lésions constitue souvent un défi en imagerie car il s’agit alors pour l’algorithme et le praticien d’isoler des anomalies très petites sur des images pouvant être de relativement grande taille. Les réseaux de type U-net peuvent rendre de grand service pour segmenter des lésions lorsque les jeux de données sont de taille modeste, ce qui est plutôt fréquent en imagerie (confère le paragraphe sur U-net en fin d’article).

L’AMÉLIORATION DES IMAGES

Les CNN peuvent être conçus et entrainés à améliorer la qualité de certaines images afin d’en simplifier la lecture et l’interprétation.

Il est par exemple possible d’entrainer un réseau à masquer les éléments osseux d’une simple radiographie du thorax afin de faciliter l’analyse des tissus mous par le radiologue [¹⁶]. Les auteurs ont entrainé un CNN, dont l’architecture en cascade affine peu à peu les gradients osseux, à des résolutions de plus en plus élevées. Les gradients osseux proposés aux différentes échelles sont ensuite fusionnés pour produire une image des tissus osseux débarrassés de leurs tissus mous. Cette nouvelle image est ensuite soustraite de la radiographie d’origine pour produire une représentation des tissus mous du thorax dont les os sont gommés.

ARCHITECTURE DES RÉSEAUX DE NEURONES CONVOLUTIFS

Au sein d’un réseau de neurones convolutifs, l’image est traitée successivement par plusieurs couches de neurones artificiels. L’ensemble des sorties d’une couche permet de constituer une image de caractéristiques intermédiaires, qui sert alors de base à la couche suivante. En changeant le type et le nombre de couches qui le compose, les concepteurs d’un réseau pourrons jouer sur sa puissance et sur les besoins en mémoire nécessaires à son fonctionnement. Ils pourront également mieux l’adapter à un type de tâche particulier. Nous détaillons ci-après les principaux types de couches rencontrées dans les CNN (^{figure 3}).

Les couches de convolution

C’est l’élément de base d’un CNN. Ces couches appliquent à leur entrée une fonction mathématique appelée convolution, qui décompose l’image d’entrée en un ensemble de petites tuiles juxtaposées. Tels des filtres, les couches de convolution vont ainsi extraire certaines caractéristiques spécifiques de l’image (bord, texture, forme…). Chaque pixel de la sortie de la couche de convolution est une combinaison linéaire de la valeur du pixel correspondant à l’entrée de la couche et de celles des pixels qui l’entourent. C’est ce pixel de la couche d’entrée et ses voisins qui constituent la tuile. Pour simplifier : la valeur du pixel de sortie est calculée à partir de celles d’un groupe de pixels de la couche précédente. La combinaison linéaire est définie par les valeurs des paramètres (“poids”) de la couche de convolution. En d’autres termes, chaque neurone est calculé uniquement en fonction de sa tuile d’entrée et des poids de la couche de convolution. De ce fait, chaque tuile est composée de pixels issus d’une couche de convolution précédente. Cela signifie que les pixels de la couche suivante sont influencés par les pixels de la couche précédente qui ont contribué à la formation de la tuile. Et plus il y a de couches, plus nombreux seront les pixels de l’image d’origine à influencer les pixels de la couche suivante. La partie de l’image d’origine qui affecte un neurone est appelée un « champ récepteur ». Les champs récepteurs se chevauchent, ce qui va permettre un traitement plus global et plus précis de l’image au fil des couches.

Contrairement à d’autre type de réseaux (par exemple les perceptrons multicouches) les CNN appliquent les mêmes poids aux différents pixels, ce qui a l’avantage de réduire la consommation en mémoire pour l’ordinateur.

Les couches de pooling

Le Pooling consiste en la réduction de l’échantillonnage de l’image en en diminuant le nombre de pixels. Les neurones de ces couches traitent l’image d’entrée fournie par la couche précédente, généralement une couche de convolution, en convertissant ses tuiles en des tuiles plus petites. La valeur du pixel de sortie est fonction des valeurs prises par les pixels de la tuile d’entrée.

Le premier objectif du Pooling est de gagner en efficacité de calcul en réduisant la taille de l’image intermédiaire, mais ce gain se fait au prix d’une légère perte d’information. Le second objectif est de réduire les phénomènes de surapprentissage.

Les filtres Max-Pool 2x2 sont actuellement les plus usités. Ils convertissent les tuiles d’entrée de taille 2x2 en un unique pixel en lui attribuant la valeur la plus élevée des pixels de la tuile d’entrée.

Les couches d’activation

Elles ont pour objectif d’améliorer l’efficacité du traitement de l’image par la couche suivante en appliquant une formule mathématique non linéaire au neurone de sortie de la couche de convolution précédente. La fonction ReLU est la plus utilisée.

La couche entièrement connectée

Dans l’architecture de cette couche, chaque neurone à des connexions avec toutes les sorties de la couche précédente. Dédiée au raisonnement de haut niveau, cette couche permet d’apprendre des relations complexes entre les entrées, mais elle nécessite beaucoup plus de poids pour fonctionner que les couches de convolution du fait de ce grand nombre de connexions. Elle constitue généralement la dernière couche du réseau, chargée de la classification. Elle est alors positionnée après une suite de couches de convolution et de pooling.

EXEMPLE D’UN RÉSEAU DE TYPE U-NET

De nombreux types de CNN ont été élaborés ou transformés pour s’adapter au mieux à de nouvelles tâches.

U-net est probablement la plus connue des architectures réseau conçue spécifiquement pour l’analyse d’images médicales. Sa preuve de concept a été publiée par Ronneberger et al. en 2015 [¹⁷]. Ses inventeurs l’ont conçu pour qu’il puisse s’entrainer malgré un nombre limité d’images. Son architecture se base sur un réseau entièrement convolutif qui réduit l’échantillonnage de l’image à chaque couche, suivi par une seconde partie convolutive qui augmente la taille d’échantillonnage à chaque couche. Sa principale particularité réside dans cette architecture qui lui permet de traiter, en un seul passage, des images de grande taille sans être limité par la mémoire du GPU (^{figure 4}). Notez que U-net ne présente pas de couche entièrement connectée car son but est de sortir une image, pas une classification. Des connexions résiduelles relient les couches de convolutions de la première partie aux couches de suréchantillonnage pour préserver la résolution de l’image.

3D U-net est une adaptation de U-net dédiée à la segmentation des examens TDM et IRM. Son architecture est la même, mais les tâches qu’il effectue le sont en trois dimensions. Son utilisation fait l’objet de très nombreuses publications. À titre d’exemple, 3D U-net s’est illustré en segmentant des poumons, à partir de scanners thoraciques, avec beaucoup de précisions et en moins de 10 s [¹⁸].

CONCLUSION

L’IA prend désormais une place importante et grandissante dans les logiciels d’imagerie médicale. Les réseaux de neurones détectent, classifient et segmentent les examens médicaux avec toujours plus d’acuité. Mais ils sont également mis à profit pour faciliter la vie des chirurgiens-dentistes et des prothésistes, par exemple en les aidant à aligner les scanners faciaux aux empreintes numériques et aux CBCT. Des équipes travaillent actuellement à entrainer des CNN à légender les examens en temps réel et à rédiger des éléments de comptes-rendus. Nul doute que d’autres applications feront rapidement leur apparition.

Cette propension à envahir nos cabinets ne peut que s’accentuer, même si les progrès des CNN sont encore souvent bridés par la trop faible taille des jeux d’images d’entrainement. Des chercheurs s’efforcent d’augmenter sérieusement la taille des banques d’images annotées existantes mais c’est un travail coûteux et de longue haleine car les images sont rares et la sécurité des données médicales des patients doit être absolument garantie.

Les résultats d’études toujours plus nombreuses montrent que l’IA concurrence déjà l’expertise humaine dans plusieurs champs de l’imagerie. Mais la grande variété des situations cliniques et les particularités anatomiques de certains patients continueront à provoquer des erreurs de la machine. Aussi l’humain devra toujours rester en contrôle et continuer à maîtriser l’interprétations des résultats. Enfin, il est de la responsabilité morale de chaque chirurgien-dentiste de s’assurer que ses patients retireront un réel bénéfice des applications qu’il utilise et que l’efficacité des algorithmes est bien validée par de robustes études scientifiques [³].

Bibliographie

1. Klette R. Concise Computer Vision: An Introduction into Theory and Algorithms [Internet]. London: Springer; 2014 [cité 29 janv 2025]. Disponible sur: https:// link.springer.com/10.1007/978-1-4471-6320-6.
2. Naseri H, Safaei AA. Diagnosis and prognosis of melanoma from dermoscopy images using machine learning and deep learning: a systematic literature review. BMC Cancer 2025;25:75.
3. FDI World Dental Federation. Artificial intelligence in dentistry. Int Dent J 2025;75:3-4.
4. Fukushima K. Visual Feature Extraction by a Multilayered Network of Analog Threshold Elements. IEEE Transactions on Systems Science and Cybernetics. 1969;5:322-33.
5. Steinkraus D, Buck I, Simard PY. Using GPUs for machine learning algorithms. Eighth International Conference on Document Analysis and Recognition (ICDAR’05) 2005;1115-1120 Vol. 2.
6. Kim HE, Cosa-Linan A, Santhanam N, Jannesari M, Maros ME, Ganslandt T. Transfer learning for medical image classification: a literature review. BMC Medical Imaging 2022;22:69.
7. Chen C, Mat Isa NA, Liu X. A review of convolutional neural network based methods for medical image classification. Computers in Biology and Medicine. 2025;185:109507.
8. Redmon J, Divvala S, Girshick R, Farhadi A. You Only Look Once: Unified, Real-Time Object Detection. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) [Internet]. 2016 [cité 3 févr 2025]. p. 779-88. Disponible sur: https://ieeexplore.ieee.org/document/7780460
9. Bayraktar Y, Ayan E. Diagnosis of interproximal caries lesions with deep convolutional neural network in digital bitewing radiographs. Clin Oral Invest 2022;26:623-32.
10. Vos BD de, Wolterink JM, Jong PA de, Viergever MA, Išgum I. 2D image classification for 3D anatomy localization: employing deep convolutional neural networks. Medical Imaging 2016: Image Processing [Internet]. SPIE; 2016 [cité 3 févr 2025]. p. 517-23. Disponible sur: https://www.spiedigitallibrary.org/conference-proceedingsof-spie/9784/97841Y/2D-image-classificationfor-3D-anatomy-localization-employingdeep/ 10.1117/12.2216971.full
11. Dou Q, Chen H, Yu L, Zhao L, Qin J, Wang D, et al. Automatic Detection of Cerebral Microbleeds From MR Images via 3D Convolutional Neural Networks. IEEE Transactions on Medical Imaging 2016;35:1182-95.
12. Dot G, Chaurasia A, Dubois G, Savoldelli C, Haghighat S, Azimian S, et al. DentalSegmentator: Robust open source deep learning-based CT and CBCT image segmentation. J Dent 2024;147:105130.
13. Singh SP, Wang L, Gupta S, Goli H, Padmanabhan P, Gulyás B. 3D Deep Learning on Medical Images: A Review. Sensors 2020;20:5097.
14. Litjens G, Kooi T, Bejnordi BE, Setio AAA, Ciompi F, Ghafoorian M, et al. A survey on deep learning in medical image analysis. Medical Image Analysis 2017;42:60-88.
15. Huo Y, Xu Z, Xiong Y, Aboud K, Parvathaneni P, Bao S, et al. 3D whole brain segmentation using spatially localized atlas network tiles. NeuroImage 2019;194:105-19.
16. Yang W, Chen Y, Liu Y, Zhong L, Qin G, Lu Z, et al. Cascade of multi-scale convolutional neural networks for bone suppression of chest radiographs in gradient domain. Medical Image Analysis 2017;35:421-33.
17. Ronneberger O, Fischer P, Brox T. U-Net: Convolutional Networks for Biomedical Image Segmentation. Medical Image Computing and Computer-Assisted Intervention - MICCAI 2015 [Internet]. Springer, Cham; 2015 [cité 4 févr 2025]. p. 234-41. Disponible sur: https://link.springer. com/chapter/10.1007/978-3-319-24574-4_28
18. Park J, Yun J, Kim N, Park B, Cho Y, Park HJ, et al. Fully Automated Lung Lobe Segmentation in Volumetric Chest CT with 3D U-Net: Validation with Intraand Extra-Datasets. J Digit Imaging 2020;33:221-30.

Liens d’intérêts

Les auteurs déclarent n’avoir aucun lien d’intérêts.