Lunettes de réalité augmentée : pour quelles nouvelles
interfaces multimédia ?
Une
prochaine génération de technologies de réalité
augmentée émerge avec le développement de lunettes
électroniques. La société Laster technologies développe
un concept original de lunette informative sur verre transparent. Elle
permet d'afficher des informations multimédia directement dans
le champ de vision tout en conservant la vision naturelle (les informations
sont projetées sur un verre transparent semi-réflechissant
alors qu'une micro-caméra embarquée analyse l'environnement
pour contextualiser les informations affichées, l'interactivité
est assurée par une commande vocale ou gestuelle). Cette nouvelle
technologie de vision enrichie interactive (dite de réalité
augmentée "optical
see through") est un nouveau support numérique de diffusion
multimédia. Il ouvre de multiples nouveaux champs d'applications,
mais suppose aussi d'imaginer les nouveaux formats de contenus et services
multimédias associés, et donc de concevoir de nouvelles
formes d'interfaces visuelles et de navigation.
La
mobilité, un marché naturel pour la réalité
augmentée, en particulier, "optical see through"
Google
via Androïd et son prochain Google Phone se positionne sur le marché
des smartphones, les applications mobiles de réalité augmentée
commencent à fleurir. Apple a déposé des brevets
pour des systèmes permettant de reconnaître et d’établir
un modèle 3D de l’environnement filmé par la caméra
de l’iPhone, pour y associer des couches d’informations multimédia
contextuelles.
L’objectif est d’amener toute la richesse et les applications
qui font le succès du Web, tels que les informations mappées
de « Google Street View », sur le marché de la mobilité
avec les technologies de la réalité augmentée, afin
de contextualiser, personnaliser, associer l’information à
l’environnement immédiat de l’utilisateur.
Cette tendance annonce une prochaine génération de médias,
qu’on pourrait appeler des « t-Medias », car ils sont
associés à des technologies de tracking pour analyser l’environnement
(qu’elles soient à base de reconnaissance vidéo, de
géolocalisation, ou encore, les deux).
Le problème des applications sur smartphone c’est qu’elles
obligent à sans cesse orienter le téléphone pour
capter avec la caméra le décor qu’on souhaite enrichir
et, en particulier dans ces conditions, l’écran est de trop
petite taille, l’enrichissement perd de son impact.
Le prolongement logique est donc d’associer ces nouvelles technologies
et applications à des lunettes électroniques de réalité
augmentée, qui permettent de conserver le champ de vision naturel
tout en offrant un champ d’affichage virtuel beaucoup plus vaste.
En outre, en libérant les mains, le système offre une meilleure
ergonomie et l’utilisateur peut par exemple se servir de sa main
pour naviguer dans les contenus virtuels affichés (via de la reconnaissance
gestuelle).
Un nouveau média qui implique de multiples innovations…
Le développement
de ce nouveau média suppose des innovations à la fois sur
le plan matériel, électronique et optique, sur celui des
technologies et solutions logicielles de tracking, mais aussi sur celui
de l’ergonomie, de la conception de l’interface et des nouveaux
formats d’applications.
Laster technologies travaille dans cette direction dans le cadre de différents
projets, tel que le projet "REVES" (concernant l’expérimentation
d’un dispositif d’exposition à la Cité des Sciences
et de l’Industrie). Laster s’associe avec des laboratoires
reconnus tels que ceux de l’INRIA ou du CNRS, afin d’intégrer
dans ses solutions les dernières technologies d’analyse de
l’image, de tracking, ou encore, d’optimisation pour le rendu
et le tracking temps réel, en particulier sur des systèmes
portables.
Expérimenté
à l’occasion de l’ouverture de la nouvelle exposition
permanente de la Cité des sciences « Objectifs Terre : la
révolution des satellites », le projet REVES (REality
and Virtual Environment Symbiose) est
un dispositif d'exposition conçu autour d’un vidéoglobe
(écran sphérique qui projette l’image de la Terre
en mouvement) placé au centre d’une table interactive.
Les
visiteurs, équipés des lunettes, voient en animations 3D
les satellites en évolution autour du vidéoglobe. Les images
virtuelles sont calées sur les éléments du décor
et recalculées en temps réel. On peut les voir sous différents
angles, afficher aussi des modèles 3D tel qu’un satellite
sur la table (équipée de capteurs) et l’observer comme
un objet réel pour en découvrir toutes les parties. La
navigation dans le menu interactif est effectuée par les gestes
de la main dont la position est repérée par le système.
Ce projet à
été développé dans le cadre d’un consortium
R&D soutenu par l’Agence Nationale de la Recherche composé
de la Cité des sciences et de l’industrie, l’INRIA,
l’Université de Paris 5, la société DreamInReal
et de Laster Technologies.
Dispositif
d’exposition en réalité aumentée « REVES
» à la Cité des Sciences
Une
nouvelle conception de l’interface visuelle
Avec cette technologie de
vision enrichie interactive, il n’y a plus de support physique visible
(l‘écran est la lunette), l’image est directement affichée
dans le champ de vision. Il y a plus aussi de périphérique
de navigation puisque l’interactivité est gestuelle. Mais
surtout, les contenus multimédias virtuels doivent s’intégrer
dans champ de vision réel, par rapport aux éléments
du décor de l’environnement, enrichir notre vision sans la
gêner, lui apporter du sens plutôt que de la perturber. Et
ce, en situation de mobilité, en fonction de nos mouvements, avec
la nécessité de réactualiser instantanément
les contenus multimédia virtuel en fonction de l’évolution
de notre position, de notre champ de vision et dans les 3 dimensions de
notre déplacement.
Cela suppose donc de repenser la conception de l’interface, de l’interactivité,
les formats de contenus associés. Ce travail dépend aussi
de l’usage et de l’application finale qui sont envisagés.
Une application de géolocalisation pour une aide aux déplacements,
n’aura pas la même configuration qu’un jeu interactif,
qu’une application de bureautique virtuelle, ou encore, qu’un
système d’aide aux mal voyants qui devra accentuer ou interpréter
l’environnement.
Un système de vision enrichie mais pour enrichir quoi et comment,
quelle nouvelle vision ?
En fonction des applications les objectifs seront différents :
enrichir la vue d’un monument ou une publicité magazine en
superposant des informations complémentaires, permettre de voir
les organes au travers du corps d’un patient pour une opération
chirurgicale, de voir l’invisible, dans le passé un bâtiment
disparu ou dans le futur le projet de complexe hôtelier sur un terrain
vague, ou encore, pourquoi pas, d’offrir une vision prédictive
en analysant les mouvements de la circulation pour prédire un accident
si on ne change pas de cap, grossir, déformer, isoler, interpréter
certains éléments du décor pour les mal voyants,
ou tout simplement, afficher des outils bureautique sans gêner le
champ de vision.
Comment fusionner les éléments virtuels dans la vision réelle
pour qu’ils apportent du sens, de l’interprétation,
de l’intelligence à la vision. Il faut analyser un ensemble
d’aspects tels que l’ergonomie du système, les usages
et objectifs du programme interactif, ou encore, les mécanismes
physiologiques et psychoperceptifs de la vision pour optimiser cette nouvelle
vision.
Qu’elle est le contexte d’utilisation de l’application,
en situation de mobilité ou pas, dans quel environnement, pour
quels objectifs ? Dans un programme pour la visite d’un site touristique
les contenus virtuels devront s’intégrer et se caler sur
les éléments patrimoniaux du décor qu’on veut
valoriser. Dans un programme de jeu, par exemple, on pourra jouer sur
des effets de « hors champ » avec des animations et personnages
virtuels cachés en arrière plan derrière des éléments
du décor réel. Dans un programme de géolocalisation
(visière d’un casque moto), les éléments directionnels
d’aide au déplacement devront s’afficher dans le champ
de vision sans le masquer pour ne pas perturber la conduite. Contrairement
à ce qu’on pourrait penser, on aura peut-être intérêt
dans ce dernier cas à les placer dans le champ de vision centrale,
pour ne pas inviter à détourner le regard de la route, et
à jouer sur des effets de transparence des éléments
virtuels intégrés pour continuer à voir l’intégralité
du paysage.
Les aspects liés à la nature du support (verre semi réfléchissant
où le virtuel se superpose au réel) sont aussi à
prendre en compte dans la conception visuelle de l’interface. Il
y a par exemple des couleurs et des textures qui passent mieux. Il faudra
aussi tenir compte des variations de l’environnement réel
dans le rendu des éléments virtuels intégrés
dans le champ, de la complexité du décor réel, luminosité,
ou encore, profondeur de champ. Ainsi, par exemple, varier la luminosité
des éléments virtuels lors du passage dans une zone d’ombre,
déterminer si l’objet virtuel doit être masqué
ou pas, en s’affichant devant un élément du décor
réel (typiquement la main doit passer en premier plan pour la navigation
dans les contenus interactifs). Tout cela, suppose donc le développement
de systèmes d’analyse de reconnaissance de l’image
capable de reconnaître les formes et de reconstruire le modèle
3D de l’environnement qui est dans le champ de vision.
De
nouveaux modes d’interaction et interfaces de navigation
Plus de souris, la navigation
est gestuelle (ou vocale), cela suppose donc le développement de
nouveaux modes de navigation interactive et de repenser aussi l’interface
de navigation.
Le référent culturel en la matière est celui du bureau
de l’ordinateur et de la navigation via la souris dans des menus
ou des icônes. Sur les écrans « multitouch »
(type iPhone, par exemple) nous naviguons déjà sans périphériques
avec des gestes plus intuitifs car inspirés de notre gestuelle
naturelle, l’action par exemple qui consiste à écarter
ou rapprocher les doigts pour agrandir ou diminuer une image, de les pivoter
pour la faire tourner, de poser le doigt et de la faire glisser pour la
poser ailleurs. Comme un objet physique qu’on pourrait manipuler.
Avec la réalité augmentée « optical see through
» un nouveau pas est franchi vers cette conception intuitive de
la navigation. L’objectif est d’aller vers des modes de navigation
encore plus intuitifs qui associent des réflexes issus de notre
gestuelle naturelle à notre culture de l’interface PC. Il
faut que l’apprentissage du système soit naturel et réduit
à son strict minimum.
Sur la première version du programme interactif du projet REVES,
l’interface est classique, inspirée des applications multimédia
standards. On déplace un curseur avec la main vers des menus interactifs
pour naviguer dans les différentes animations.
Avec le développement des algorithmes de reconnaissance gestuelle,
une grammaire gestuelle plus élaborée a été
définie pour les versions suivantes. Celle-ci décompose
un ensemble de gestes correspondants à des fonctions élémentaires
qui associés permettront de naviguer dans les contenus (désigner/activer,
prendre/déplacer/relâcher, ouvrir/fermer,…). Elle s’inspire
d’une gestuelle naturelle comme fermer la main pour « prendre
», la bouger pour «déplacer ». etc…
Les tests effectués auprès du public de la Cité des
Sciences ont confirmé cette approche. Dès lors que les images
virtuelles s’affichent dans le champ de vision et se confondent
avec l’environnement réel le réflexe naturel est d’essayer
de les attraper, les déplacer par exemple comme un objet réel.
Lors des tests des réflexes d’interaction ont été
noté des utilisateurs, issus de notre culture multimédia,
comme celui d’essayer d’appuyer avec le doigt sur des zones
sensibles de l’image (comme les menus) pour activer une interaction
dans sur un écran tactile. Ces travaux ont été intégrés
pour construire une prochaine interface de navigation qui permettra de
naviguer avec une gestuelle intuitive, d’abord en désignant
et manipulant les objets virtuels qui sont dans la scène (premier
niveau de navigation),ensuite avec des outils et des menus contextuels
qui pourront être affiché/desaffiché pour des fonctions
plus avancées.
La navigation est conçue, en outre, de manière dynamique,
c’est-à-dire, qu’elle doit évoluer en fonction
des mouvements, des changements de scène vue, de l’enrichissement
virtuel affiché et dans les 3 dimensions du déplacement.
Laster technologies a mis en place de multiples partenariats et une équipe
multi-disciplinaires. Cette organisation permet de fusionner les compétences
utiles pour associer aux développements technologiques matériels
et logiciels, les innovations nécessaires en termes d’application
finale. Tous ces champs d’innovations sont liés, et en dernier
lieu, ce sont les aspects liés à l’ergonomie, à
la bonne intégration des interfaces virtuelles dans le champ de
vision, l’adaptation aux besoins, la plus value des applications,
qui feront le succès de ce nouveau média.
Michel Agnola
|