En cliquant sur "Accepter tous les cookies", vous acceptez que des cookies soient stockés sur votre appareil afin d'améliorer la navigation sur le site, d'analyser l'utilisation du site et de nous aider dans nos efforts de marketing. Plus d'informations
Paramètres des cookies
En cliquant sur "Accepter tous les cookies", vous acceptez que des cookies soient stockés sur votre appareil afin d'améliorer la navigation sur le site, d'analyser l'utilisation du site et de nous aider dans nos efforts de marketing. Plus d'informations
Découvrez comment OpenPose peut être utilisé pour l'estimation de pose dans les applications de vision par ordinateur. Découvrez ses fonctionnalités et son importance dans Vision AI.
De nos jours, les images et les appareils photo sont partout : intégrés à nos téléphones, à nos maisons et même dans les espaces publics. Nous les utilisons non seulement pour capturer des moments, mais aussi pour comprendre et interagir avec le monde qui nous entoure.
En coulisses, la vision par ordinateur , un sous-domaine de l'intelligence artificielle (IA), rend tout cela possible en permettant aux machines d'interpréter les données visuelles. Elle permet aux systèmes de détecter des objets, de reconnaître des visages et de suivre des mouvements, jouant ainsi un rôle essentiel dans de nombreuses technologies que nous utilisons au quotidien.
Grâce aux progrès récents de l'IA, les modèles de vision par ordinateur peuvent désormais analyser et extraire des données et des informations plus complexes. L'estimation de pose , une tâche de vision par ordinateur axée sur la compréhension du mouvement humain, en est un exemple.
Il fonctionne en identifiant des points clés du corps, tels que les épaules, les coudes et les genoux, sur des images ou des vidéos. Cela permet d'analyser les mouvements des personnes, ouvrant la voie à des applications dans le suivi de la condition physique, l'animation, la santé, etc.
Parmi les nombreux outils développés pour l'estimation des poses, OpenPose constitue une avancée majeure. Créé par des chercheurs du Perceptual Computing Lab de l'Université Carnegie Mellon, il s'agit de l'un des premiers systèmes open source capables de détecter en temps réel les poses du corps entier, incluant les mains, les pieds et les points clés du visage, pour plusieurs personnes, à l'aide d'une simple caméra (jusqu'à 135 points clés par personne).
Dans cet article, nous explorerons OpenPose, son fonctionnement et son importance en tant qu'étape importante dans la vision par ordinateur.
Fig 1. Estimation de pose multi-personnes à l'aide d'OpenPose.
Un regard sur l'histoire de l'estimation de la pose
Avant l'adoption généralisée de l'IA, le suivi des mouvements humains dans les vidéos nécessitait l'utilisation d'équipements spécialisés. Dans des industries comme le cinéma et l'animation , les acteurs portaient souvent des combinaisons avec des marqueurs réfléchissants afin que les caméras puissent capturer leurs mouvements dans un environnement de studio contrôlé.
Si ces techniques de capture de mouvement basées sur des marqueurs étaient précises, elles étaient également coûteuses et limitées à des configurations spécifiques. Avec les progrès de la vision par ordinateur, les chercheurs ont cherché des moyens de suivre les mouvements corporels sans utiliser de marqueurs. Ils ont utilisé des bords, des contours et des modèles pour identifier les formes humaines dans les images.
Ces premiers systèmes fonctionnaient dans des situations simples et directes, mais peinaient à fonctionner dans des scénarios réels. Ils donnaient souvent de mauvais résultats lorsque les personnes se déplaçaient de manière inattendue ou lorsque plusieurs personnes apparaissaient dans un cadre.
À la fin des années 2010, l'apprentissage profond a révolutionné l'estimation des poses. Les modèles d'IA de vision ont pu être entraînés sur de vastes ensembles de données de poses humaines. Au lieu de s'appuyer sur des contours et des modèles, les modèles ont appris à reconnaître les articulations et la structure du corps en étudiant des milliers d'images étiquetées. L'estimation des poses a ainsi gagné en précision, en flexibilité et en efficacité dans un plus large éventail de contextes.
Fig 2. L’évolution des modèles d’estimation de la pose humaine de 2017 à 2023.
OpenPose : là où l'estimation moderne des poses a pris son envol
OpenPose, lancé en 2017, permet d'estimer simultanément les poses de plusieurs personnes sur une seule image. Contrairement aux systèmes plus anciens, OpenPose ne nécessite ni combinaison ni marqueur spécifiques. Il fonctionne avec des caméras standard et peut traiter les images et les vidéos en temps réel. Ces fonctionnalités ont rendu l'estimation des poses plus accessible aux développeurs et aux chercheurs.
Les bases posées par OpenPose pour la vision par ordinateur ont permis à d'autres de développer de nouvelles architectures pour diverses applications. Aujourd'hui, les modèles d'IA de vision comme Ultralytics YOLO8 et Ultralytics YOLO11, qui prennent en charge les tâches d'estimation de pose, offrent des résultats plus rapides et une latence réduite.
Fig 3. Utilisation de YOLO11 pour l'estimation de la pose.
Cependant, OpenPose est un excellent point de départ si vous souhaitez comprendre l'évolution de l'estimation de pose. Il a introduit des idées clés sur lesquelles de nombreux systèmes plus récents s'appuient encore aujourd'hui.
Principales fonctionnalités d'OpenPose
Maintenant que nous comprenons mieux pourquoi OpenPose est important, examinons de plus près ce qu'il peut réellement faire.
Au cœur des fonctionnalités d'OpenPose se trouve la détection de points clés . Ces points clés sont des repères spécifiques du corps humain, comme le bout du nez, le centre des épaules, les coudes, les poignets, les hanches, les genoux et les chevilles. OpenPose peut détecter jusqu'à 135 de ces points par personne, y compris des zones détaillées comme les doigts et les traits du visage.
Lorsque ces points sont reliés, ils forment une représentation simplifiée du corps humain – on peut le comparer à un squelette numérique. Ce schéma squelettique indique non seulement où se trouve une personne, mais aussi sa posture : assise, debout, agitant la main, souriante ou marchant. Les ordinateurs peuvent interpréter visuellement les mouvements humains grâce à ces squelettes, tout comme nous comprenons instinctivement le langage corporel d'une personne.
Le suivi squelettique est particulièrement utile car il élimine les bruits de fond et les distractions, permettant au système de se concentrer uniquement sur la posture et les mouvements humains. Au lieu d'analyser chaque pixel, OpenPose se concentre sur les points significatifs qui racontent comment une personne se déplace ou interagit.
En extrayant ces informations structurées à partir d’images ou de vidéos du quotidien, OpenPose permet de créer des applications qui répondent aux gestes, surveillent l’activité physique, évaluent les signaux émotionnels ou encore animent des personnages numériques.
Comment fonctionne OpenPose ?
Voici un aperçu de la manière dont OpenPose détecte et connecte les points clés du corps humain à partir d'une entrée visuelle :
Commence par une image : OpenPose prend une seule image à partir d'une photo, d'une vidéo ou d'un flux de caméra en direct.
Repère les parties importantes du corps : le système recherche des points clés du corps, comme le nez, les coudes, les poignets, les genoux et les chevilles. Ils sont marqués là où le système est certain de localiser une partie du corps.
Détermine les parties qui s'assemblent : OpenPose vérifie ensuite la connexion des points clés. Il utilise des calculs mathématiques pour déterminer quelles articulations appartiennent à une même personne, par exemple en associant un poignet au coude et à l'épaule droits.
Dessine un squelette pour chaque personne : après avoir regroupé les points clés, OpenPose les relie en un « bonhomme allumette » qui représente la pose de chaque personne. Cela fonctionne même lorsque plusieurs personnes apparaissent dans la même image.
Renvoie les données de pose : enfin, il fournit les positions exactes de tous les points clés détectés. Ces données peuvent être utilisées pour suivre les mouvements, reconnaître les gestes ou créer des outils interactifs, le tout en temps réel.
Fig 4. Détection et suivi des points clés humains à l'aide d'OpenPose.
Applications d'estimation de pose dans tous les secteurs d'activité à l'aide d'OpenPose
OpenPose a été l'un des premiers outils avancés à rendre l'estimation de pose pratique pour divers cas d'utilisation concrets. Bien qu'il soit peu utilisé aujourd'hui dans les solutions de vision par ordinateur en temps réel, il a joué un rôle important dans l'élaboration des premiers travaux dans des domaines tels que le sport, le divertissement, l'éducation et la sécurité.
Examinons de plus près comment cela a contribué à ouvrir la voie dans ces domaines.
Estimation de pose avec OpenPose pour le fitness et le sport
En regardant un match de baseball, il est facile de comprendre ce qui se passe : on reconnaît instantanément un lancer, un swing ou un vol de base. En tant qu'êtres humains, nous lisons intuitivement les mouvements du corps et les comprenons sans effort. Mais pour les machines, reconnaître ces actions est bien plus complexe. Elles ont besoin d'informations précises sur la façon dont chaque partie du corps se déplace dans l'espace.
OpenPose a constitué une avancée majeure dans ce domaine de la vision par ordinateur. Il s'agissait d'un outil pratique pour analyser la forme athlétique dans divers contextes.
De nombreux projets de recherche ont utilisé OpenPose pour décomposer des mouvements tels que les swings et les sauts, et même classer des actions de baseball spécifiques en fonction des déplacements des joueurs. Fonctionnant dans des environnements ouverts avec une vidéo standard, OpenPose a permis aux chercheurs de tester le fonctionnement de ces systèmes dans des scénarios d'entraînement ou de coaching réels.
Ces premières études ont contribué à jeter les bases des outils de suivi des performances désormais utilisés dans les technologies sportives avancées.
Fig 5. Un aperçu d'un pipeline de classification d'actions de baseball utilisant OpenPose.
Utilisation d'OpenPose dans les systèmes de sécurité et de sûreté
De même, les chercheurs ont utilisé OpenPose pour étudier comment le suivi de poses par vidéo pourrait contribuer à la surveillance de la sécurité. Ce système a été testé pour détecter des comportements tels que des chutes, des gestes inattendus ou des schémas de mouvement dans les espaces publics.
Grâce à sa compatibilité avec des caméras standard, OpenPose a facilité les premières expérimentations dans des environnements tels que les hôpitaux et les plateformes de transport. Ces études ont contribué au développement de nouveaux modèles désormais utilisés dans les systèmes de surveillance, de détection des chutes et d'intervention d'urgence.
Voici un aperçu de certains des avantages offerts par OpenPose :
Utile pour la recherche et le prototypage : il a été largement utilisé dans la recherche universitaire, en particulier dans des domaines tels que l'interaction homme-machine, la biomécanique et l'analyse comportementale.
Prise en charge multiplateforme : il peut fonctionner sur Windows, Linux et macOS, avec prise en charge des unités centrales de traitement (CPU) et des unités de traitement graphique (GPU) .
Capacité de traitement hors ligne : il peut fonctionner dans des environnements sans accès Internet, ce qui le rend idéal pour les environnements sensibles à la confidentialité comme les soins de santé ou l'éducation.
Bien qu'OpenPose ait constitué une avancée majeure, il présente également des limites techniques qu'il est important de garder à l'esprit. Voici quelques-uns des principaux défis associés à OpenPose :
Exigences de traitement élevées : l'exécution d'OpenPose en temps réel nécessite un GPU puissant et des ressources de calcul importantes.
Sensible à l'environnement : les performances peuvent diminuer dans des conditions de faible luminosité, dans des espaces bondés ou lorsque les angles de caméra ne sont pas idéaux.
Lourd par rapport aux modèles plus récents : Comparé aux modèles d'estimation de pose plus récents, OpenPose est relativement volumineux et plus lent. Il n'est pas adapté à un déploiement sur des appareils aux ressources limitées comme les smartphones, les tablettes ou les systèmes embarqués.
Principaux enseignements
OpenPose a joué un rôle important en rendant l'estimation des poses plus accessible. Il a démontré que le suivi des mouvements corporels pouvait être réalisé avec une simple caméra, sans combinaison ni équipement spécialisé.
Il a posé les bases de nombreuses applications pratiques dans les domaines de la santé, de l'éducation, du divertissement et de la recherche. Si les modèles plus récents offrent désormais des vitesses plus rapides et des performances plus légères, OpenPose reste une référence essentielle pour comprendre l'évolution de l'estimation de pose.