À propos Volumes Actualité Soumettre un article

Volume 22 / Mobilités connectées virtuelles et in situ

Multimodalité des interactions dans le monde virtuel RENNES2D

Fanny Hervé-Pécot

Université Rennes 2

Elisabeth Richard

Université Rennes 2

Nous remercions Marie-Françoise Bourvon, maitresse de conférence émérite de l’université Rennes 2, pour sa relecture et ses commentaires précieux.

Résumé

Cet article explore le parcours d’étudiant·es internationaux·ales au sein de RENNES2D, un monde virtuel conçu pour représenter le campus de l’Université Rennes 2. Ce campus virtuel permet une exploration interactive et immersive des lieux clés de l’université. Les visiteur·ses, au moyen de leurs avatars, naviguent dans ce monde virtuel et participent à des modules d’activités interactives, favorisant leur immersion linguistique et culturelle. Le projet s’inspire de recherches sur les formations à distance pour les étudiant·es internationaux·ales, accompagnant les dispositifs FRAC ou MoocToMove, par exemple. Il intègre une réflexion sur la littératie multimodale nécessaire pour évoluer dans un tel environnement. L’analyse des interactions, basée sur des captations vidéo et des transcriptions annotées, met en lumière l’appropriation des espaces virtuels par les étudiant·es, ainsi que leurs pratiques numériques et linguistiques. RENNES2D est envisagé comme un « espace transitionnel » facilitant l’apprentissage de la langue et de la culture. L’hypothèse centrale est que la multimodalité enrichit non seulement la compréhension des espaces réels via leur exploration virtuelle, mais aussi les interactions sociales et langagières, contribuant ainsi à une meilleure préparation à la mobilité internationale.

Abstract

This article explores the journey of international students within RENNES2D, a virtual world designed to reflect the campus of Rennes 2 University. This virtual campus offers an interactive and immersive exploration of the university’s key locations. Visitors, via their avatars, navigate this virtual world and take part in interactive activity modules, promoting linguistic and cultural immersion. The project presented here is inspired by research into distance learning for international students, accompanying the FRAC or MoocToMove programs, for example. It includes a reflection on the multimodal literacie required to evolve in such an environment. The analysis of interactions, based on video recordings and annotated transcriptions, highlights students’ appropriation of virtual spaces, as well as their digital and linguistic practices. RENNES2D is considered here as a “transitional space” facilitating language and culture learning. The central hypothesis is that multimodality enriches not only the understanding of real spaces via their virtual exploration, but also social and language interactions, thus contributing to better preparation for international mobility.

Mots-clés

monde virtuel (MV), interactions, multimodalité, espace, didactique des langues.

Keywords

digital tools, “photo-langue”, “missions”, “restitutions”, short-term sojourns abroad.

Télécharger en pdf

Pour citer

Hervé-Pécot, Fanny et Richard, Elisabeth (2025). Multimodalité des interactions dans le monde virtuel RENNES2D. Revue de recherches en littératie médiatique multimodale, 22.

Introduction

De nombreuses études s’intéressent aux trajectoires et aux conditions de réussite des étudiant·es internationaux·ales en mobilité. Des projets tels que FRAC (Lang et Beillet, 2023), FRANMOBE (Puren, 2022), MoocToMove (Carras et al., 2021), ENVOL (Prunet et al., 2020) ou encore Visiteurs (Guichon, 2022) et MOBILE (Danos et Grassin, 2024) visent à faciliter l’intégration et l’acculturation de l’étudiant·e international·e dans son nouvel environnement académique. Certains dispositifs se focalisent sur les compétences académiques (FRAC, MooCtoMove), d’autres y ajoutent une dimension sociale avec des modules dédiés au développement de connaissances liées au savoir-être et à la vie étudiante (ENVOL), ou une dimension réflexive sur le projet de mobilité (FRANMOBE), ou encore une dimension spatiale visant une appréhension située de la mobilité (Visiteurs, MOBILE). Ces dispositifs ont en commun l’objectif de préparer ou d’accompagner les étudiant·es internationaux·ales en mobilité. Le projet à l’origine de l’étude présentée ci-après a ce même objectif, mais présente la particularité de proposer un dispositif de formation en ligne dans un environnement offrant une immersion différente de celles des projets mentionnés précédemment. En effet, ces derniers sont disponibles soit sur des plateformes d’apprentissage ou de gestion de classe (Learning Management System), soit sur des applications mobiles. Celle dont il sera question ici est, pour sa part, déposée dans un monde virtuel 2D dont l’espace principal (espace d’accueil virtuel) représente une version à la fois réaliste et ludique du campus de l’Université Rennes 2.

Dans cet article, le monde virtuel RENNES2D¹ sera envisagé sous l’angle des interactions générées par la représentation du campus en 2D, et des apprentissages que ces interactions engendrent. Le terrain constitué par ce monde virtuel se présente comme une image en miroir de l’université et implique ainsi des projections des usager·ères dans un environnement qui leur est plus ou moins inconnu. La plateforme utilisée pour le développement du campus virtuel offre la possibilité aux visiteur·ses de parcourir le ou les espaces universitaires grâce à la personnalisation et à la manipulation d’un avatar. Afin de mettre en lumière les types d’interaction observables dans cet espace virtuel, un parcours d’apprentissage situé, autour de thématiques liées à la vie étudiante, a été développé et testé par des étudiant·es étranger·ères à Rennes. Les captations vidéo de ces tests et le traitement des données obtenues en trois étapes parallèles (transcription orthographique, annotation avec catégorisation, traçage des déplacements) ont conduit à l’élaboration de catégories d’interactions observables. Une analyse des discours produits par les participant·es dans ce monde virtuel et au contact des artefacts présents révèle leur appropriation et, plus largement, leur appréhension de cet « espace transitionnel » (Barbot, 2010) d’apprentissages socio-interactionnels (Ollivier, 2018).

Notre hypothèse est que la multimodalité des interactions observées dans cet environnement sémiotique pourrait, d’une part, enrichir l’appropriation des espaces et des objets culturels réels grâce à la découverte virtuelle incarnée et en mouvement ; d’autre part, elle pourrait révéler des pratiques numériques multiples (interactions avec l’interface) et, plus globalement, des pratiques sociales (interactions entre les espaces et les co-usager·ères) adoptées pour s’adapter à l’environnement représenté. Il s’agit donc de montrer la manière dont les interactant·es se saisissent de cet environnement et d’identifier leurs pratiques numériques et sociales.

1. Contexte

L’environnement numérique présenté dans cet article est une composante du projet ANR DEMOES (Démonstrateur dans l’enseignement supérieur) AIR (Augmenter les interactions à Rennes), visant à développer, au sens large, les interactions sur les principaux campus rennais.

1.1. Projet AIR-R2D : un campus virtuel pour favoriser les interactions

Le projet AIR (Augmenter les Interactions à Rennes)² a l’ambition de proposer des solutions numériques innovantes pour enrichir et multiplier les interactions pédagogiques. Ce projet comporte trois axes : Campus augmenté, Pédagogies interactives et Écosystème de soutien. L’axe Campus augmenté vise à mettre en place un environnement numérique qui soutient les échanges sociaux et prolonge les activités académiques au-delà des campus physiques.

Le monde virtuel RENNES2D s’inscrit dans cet axe. Il s’agit d’une représentation virtuelle des campus de l’Université Rennes 2 et de l’Université de Rennes, modélisés via l’outil Blender et hébergés par la plateforme WorkAdventure. La création de ce monde virtuel (MV) a entrainé le développement de plusieurs cartes virtuelles représentant différents lieux. La carte principale est une représentation en 2D du campus de l’université. Rattachées à celle-ci, de nombreuses cartes permettent d’accéder à différents lieux et espaces réels ou imaginaires (une montgolfière, par exemple) de l’université Rennes 2, représentés de manière réaliste ou non (un amphithéâtre, par exemple). Ces différentes cartes sont utilisées selon les besoins et les représentations spatiales des usager·ères et donnent vie à différents types d’interactions, impliquant des degrés variables de formalité et des activités multimodales diverses.

Une fois ce monde créé par l’équipe projet, il nous a été nécessaire d’y intégrer des éléments incitant des interactions autres que des déplacements d’avatars entre les bâtiments et objets du campus virtuel. En effet, pour analyser les interactions des étudiant·es internationaux·ales (EI), nous avons choisi de développer des ressources adaptées à ce public cible. Nous avons mené plusieurs expérimentations visant à explorer les tendances interactionnelles rendues possibles par ce type d’environnement. Une première étude (Hervé-Pécot et al., 2024) menée avec des EI dans un prototype de MV créé sur la plateforme GatherTown a permis de mettre en évidence l’intérêt de l’accompagnement des usager·ères dans ces espaces via ce que l’on pourrait appeler un « scénario spatialement structuré ». À la suite de cette première étude, qui soulignait l’importance d’une réflexion poussée sur la spatialisation, ou « mise en espace », des ressources déposées dans le campus virtuel, nous avons choisi de développer un scénario incitant les usager·ères du monde RENNES2D à interagir avec l’espace, avec les objets déposés sur les différentes cartes et aussi à interagir entre eux·elles.

1.2. Parcours MAPI-R2D : Modules d’Acculturation Pour Internationaux·ales

Inspirée des projets précédemment mentionnés, la proposition de parcours virtuel a un objectif double : faire découvrir le campus par une navigation dans la représentation réaliste de celui-ci, proposée dans le MV, et faire découvrir l’expérience estudiantine locale par une série d’activités ludopédagogiques. La promotion 2023-2024 du Master Didactique des Langues « NIPRO » (Numérique et Ingénierie pédagogique) a été impliquée dans le développement de ce parcours. En effet, notre terrain virtuel invitant à une exploration « hors les murs », nous avons souhaité encourager les étudiant·es du Master à proposer des modules articulant des objectifs de Français sur Objectif Universitaire (FOU) et des activités sociolangagières ancrées dans la vie étudiante locale réelle, visant ainsi des « objectifs opérationnels » (Puren et Davanture, 2020) et « d’acculturation universitaire » (Mangiante et Parpette, 2011, cité par Prunet et al., 2020) :

l’acculturation universitaire » comprend ce que Mangiante et Parpette (2011) réunissent sous l’étiquette des compétences pour « s’intégrer à l’université », à savoir comprendre un cours magistral, se repérer dans l’espace et le temps universitaire, identifier des personnes ressources, réaliser différents types d’opérations langagières (à caractère administratif, pour échanger avec les natifs), etc. (Prunet et al., 2020, p. 6)

Ainsi, en un, les étudiant·es du Master ont créé six modules numériques portant sur des thématiques basé·es sur leur expérience d’étudiant·e, et pour certain·es, leur expérience d’étudiant·e international·e. Cette démarche vient ainsi supplanter une analyse des besoins plus traditionnelle (Carras et Perret, 2021, p. 2) et se fonde directement sur les propositions spontanées des étudiant·es. Cela a par ailleurs donné l’occasion d’une discussion riche sur les conditions d’accueil des EI, autant sur les conditions perçues que les conditions vécues. L’ensemble constitue un parcours d’autoformation de 10 h-12 h environ (1 h 30 à 2 h d’activités par thématique), destiné à un public d’étudiant·es allophones de niveau B1 ou B2. Les séances d’origine incluent documents authentiques, activités interactives et productions générées par différents outils exploitant éventuellement une intelligence artificielle. Les modules créés ont ensuite été déposés dans le MV à des endroits stratégiques, liés à leur thématique. Les lieux sélectionnés s’apparentent à ce que Guichon et al. (2022) nomment des « lieux-problèmes ». Ainsi, le sous-module « Bibliothèque universitaire » a été déposé devant la représentation virtuelle de la bibliothèque de l’université ; le module lié aux transports en commun près de la station de métro, et ainsi de suite.

**Figure 1.** Capture d’écran de « ciel » : l’objet « étagère » devant le bâtiment BU.

Sur cette capture d’écran, l’objet en surbrillance représentant une étagère a été choisi pour représenter un module d’activités dédiées aux services de la Bibliothèque Universitaire (BU) et des bibliothèques de la ville de Rennes.

Dans un deuxième temps, nous avons repris l’ensemble des modules produits et avons sélectionné les activités qui nous semblaient les plus attractives et pertinentes pour notre public cible, selon trois critères : la précision du contenu, la durée de l’activité et le niveau d’interactivité. Nous avons ainsi constitué un nouveau parcours adapté à l’expérimentation décrite ci-après. Avec l’aide d’une ingénieure pédagogique et d’une stagiaire du Master DDL, nous avons rédigé un nouveau scénario pédagogique pour guider le parcours et harmoniser l’apparence des modules. Le deuxième parcours propose ainsi une découverte plus succincte des services et activités universitaires et a été réfléchi pour les besoins de l’expérimentation. Le scénario implique deux personnages inspirés des légendes arthuriennes (issues du patrimoine culturel local) : Merlin et Viviane sont ici étudiant·es à l’université et sont chargé·es de recevoir les nouveaux étudiant·es pour leur faire découvrir le campus. Quatre des thématiques de départ ont été préservées : CMI (Centre de mobilité internationale) ; Transport ; Bibliothèque universitaire et Champs libres (bibliothèque municipale de la ville) ; CROUS (Centre régional des œuvres universitaires et scolaires). Notre première idée était de privilégier les activités liées à la culture et aux activités sociales des étudiant·es, mais à la suite des discussions avec les étudiant·es du Master Didactique des Langues, il s’est avéré plus pertinent de présenter à des apprenant·es, soumis·es à « une contrainte temporelle forte » (Prunet et al., 2020, p. 6), des modules offrant des informations pratiques permettant une appréhension plus rapide des espaces et des démarches administratives. Ce nouveau parcours est développé sur des supports de type diaporama dynamique réalisés avec l’outil Genially. À la fin de chaque module, le lieu où est situé le module suivant est indiqué dans un texte accompagné d’un visuel (dans la figure 2, le bâtiment P est mis en valeur dans un cadre violet pour faciliter son identification).

**Figure 2.** Capture d’écran de « flipflop » : indication du bâtiment P.

2. Cadre théorique

Le cadre théorique de cette expérimentation réunit un ensemble de disciplines et d’approches qui ont mené à sa mise en œuvre. Le premier champ sollicité est celui des interactions en ligne, pour lequel sont convoqués les travaux de Kerbrat-Orrecchioni (2011) et Develotte et Paveau (2017) pour l’analyse des « technodiscours » (ibid.). Les travaux de Mondada sur l’incidence de la technologie sur les interactions langagières (2007) sont également sollicités. La multimodalité est ensuite définie selon les travaux d’Azaoui (2019) et d’Amoyal et ses co-auteur·rices (2022). Une deuxième sous-partie évoque les recherches retenues pour l’étude de l’environnement appréhendé : le MV, à travers les propositions de Wigham (2012), Privas-Bréauté (2016) et Tang (2016), et la navigation dans ces espaces selon les théories présentées par Tricot (1993, 2006) et Collard (2012). La troisième sous-partie présente les cadres utilisés pour étudier les apprentissages liés au FOU et à l’acculturation académique (Mangiante et Parpette, 2011 ; Puren et Davanture, 2020 ; Prunet et al., 2020) d’une part et à la socialisation langagière (Danos et Grassin, 2024), d’autre part.

2.1. Interactions en ligne et multimodalité

Les interactions décrites dans cet article sont de deux ordres : langagières et non langagières. Ainsi, notre cadre théorique appelle différentes approches de la notion d’interaction. L’approche interactionniste est ainsi retenue pour décrire les interactions langagières en tant que conversation et plus précisément de « conversations provoquées et non naturelles » (Kerbrat-Orrechioni, 2011) : « il s’agit pour les interactants de parler sur commande, c’est-à-dire sur un thème qui leur est imposé, en un lieu qui leur est imposé, pendant une durée qui leur est imposée, avec un partenaire qui leur est imposé. » Dans notre cas, la situation de communication établie par l’expérimentation est une interaction de type « face à face distanciel » (Develotte et Paveau, 2017) et implique des précautions quant à différents aspects :

La synchronie interactionnelle, par exemple, est indissociable de la qualité du flux numérique, de la distorsion du signal audio ou vidéo et demande un ajustement de la part des interactants. Parmi les spécificités repérées dans les conversations en ligne, on retiendra la coexistence d’espaces différents (Marcoccia 2011), les chevauchements de parole plus nombreux qu’en présentiel (Traverso 2011), l’ordinateur comme acteur social dans l’interaction (Liddicoat 2011), la construction de l’ethos en conversation en ligne (De Chanay 2011), l’accentuation des mimiques faciales et des comportements gestuels par rapport à une situation de face à face présentiel (Cosnier et Develotte 2011). (ibid., p. 4)

Cette dernière partie de la citation démontre la nécessité de prendre en compte la dimension multimodale des interactions. Les éléments évoqués ont un impact sur la gestion des tours de parole et le déroulement des activités autres que langagières (Mondada, 2007). Sur ce sujet, l’article d’Amoyal et de ses co-auteur·rices (2022) propose une analyse riche des recherches sur la multimodalité en sciences du langage. Partant de l’apport de la sociologie de Goffman pour aller jusqu’à l’étude des discours numériques, les auteur·rices répertorient un ensemble d’approches de la multimodalité. Dans notre étude, nous nous concentrons sur l’analyse des échanges verbaux, et plus particulièrement sur les interactions verbales numériques ayant lieu dans le MV présenté précédemment. Nous adoptons une approche large de la notion de multimodalité qui inclut les éclairages des différentes disciplines mentionnées : la linguistique, la sémiotique sociale et la « communication interactive multimodale » (Herring, 2015), avec une attention particulière portée à la multimodalité numérique.

Comme le souligne Azaoui (2019), le terme « multimodalité » fait partie des grandes tendances parmi les recherches en didactique. L’auteur relève un grand nombre d’occurrences notamment à partir des années 2000 et pointe la flexibilité avec laquelle il est utilisé, l’amenant à détailler les alternatives proposées dans les articles de recherche en didactique :

Trois termes pourraient ainsi être considérés dans une relation de complémentarité et de non-exclusivité les unes par rapport aux autres. Nous les définissons ainsi :

Multimodale : renvoie à l’existence d’une pluralité de modalités/ressources sémiotiques, sans qu’il y ait nécessairement (mise en) dialogue ou interaction entre elles. Nous l’utiliserons également comme terme englobant « neutre » ;

Intermodale : indique une situation multimodale dans laquelle les modalités/ressources sémiotiques sont analysées dans leur interaction. Le sens de l’énoncé est/se construit dans ce dialogue ;

Transmodale : réfère à une situation multimodale qui implique le passage d’une modalité à une autre : passer d’une modalité visuelle à une modalité tactile, par exemple. Si l’on peut éventuellement reconnaître une possible (mise en) interaction entre les modalités pour qu’il y ait changement, nous estimons que la question de l’interaction n’y est pas centrale. (Azaoui, 2019, p. 6)

Notre étude s’intéressant aux interactions entre les usager·ères, les ressources et la spatialisation des objets et des interactant·es, nous faisons ici le choix de retenir les propositions d’Azaoui et de les traiter, comme indiqué, de façon non exclusive, dans le but de saisir l’ensemble des interactions générées par l’environnement sémiotique dont il est question ici.

2.2. Mondes virtuels et navigation

Le cadre théorique nécessite la prise en compte de recherches menées sur les mondes virtuels dans le cadre de l’enseignement-apprentissage des langues. Nous prenons pour référence les travaux de Wigham (2012) qui propose une réflexion étendue sur les termes employés pour discuter de ces types d’environnement. L’autrice fait le choix d’utiliser l’expression « monde synthétique » plutôt que « monde virtuel » en expliquant que le terme « virtuel » manque de précision et serait « souvent utilisé en référence à des choses qui imitent leur équivalent réel » (ibid., p. 109 ; traduction libre). Le monde RENNES2D présente des éléments le rapprochant d’un monde synthétique : espace de connexion simultanée multi-usager·ères ; interactions sociales synchrones ; interactions avec l’environnement ; « persistance » du monde ; représentation par un avatar. Cependant, les interactions avec l’environnement sont plus limitées (pas de « drag and drop » par les avatars, par exemple). Nous conserverons dans notre étude le terme « monde virtuel », d’une part parce qu’il est présenté sous ce nom dans le cadre du projet AIR, d’autre part, parce qu’il ne correspond pas exactement à un monde synthétique comme Second Life, présenté ci-dessus. Nous nous inspirons néanmoins de l’étude de Wigham pour l’analyse des interactions verbales et non verbales observables dans notre contexte. La qualité « persistante » du MV est relevée par Tang (2016) qui propose en outre une catégorisation des « interactions verbales se référant aux actions possibles dans Second Life » pour en étudier les affordances. Ses propositions sur le mouvement des avatars et leur relation avec la co-interprétation de l’environnement virtuel par les étudiant·es de l’expérimentation nous apportent des pistes de réflexion. La « valeur pédagogique des mondes virtuels » est également étudiée dans les recherches de Privas-Bréauté (2016) qui relie l’utilisation de l’avatar à l’interprétation théâtrale. Ce rapprochement nous permet d’envisager la coprésence des avatars dans le MV comme vectrice de pratiques sociolangagières par la « création d’un être virtuel mouvant » (Privas-Bréauté, 2016, p. 46). Ces différentes études proposent des éléments d’analyse du déplacement ou du mouvement des avatars et nous amènent à intégrer la question de la navigation : comment les visiteur·ses-avatars naviguent-ils dans le MV ? Le champ de la cognition spatiale nous semble offrir un éclairage intéressant, notamment un ouvrage dirigé par Michel Denis (1997), dont l’avant-propos débute ainsi :

La question de l’espace est présente dans toutes les disciplines qui traitent de la connaissance humaine. Nulle théorie cognitive ne saurait omettre de considérer la façon dont les individus « expérimentent » l’espace, dont ils le mémorisent et s’en créent des représentations (mentales ou matérielles) et la manière dont ils utilisent ces représentations pour planifier leurs déplacements ou anticiper les déplacements d’autrui. L’adaptation de l’homme à son environnement est tributaire des représentations qu’il construit de cet environnement et de la manière dont il partage ces représentations avec les autres individus. (p. IX)

Ainsi, s’il est question de proposer à des EI une expérience d’acculturation à leur environnement d’étude, il est nécessaire de considérer les apprentissages effectués par l’expérience spatiale et les représentations mentales développées dans le « monde représentant » (Habel, 1997, p. 104). Ces représentations se créent à travers diverses modalités et dépendent à la fois du monde représentant, dans ce cas-ci R2D, et des connaissances des conventions utilisées pour créer ce monde. Des choix graphiques ont été opérés pour créer R2D : grandeur, distances, angles, couleurs, signalétique. Ces choix sont réalisés souvent de façon arbitraire (Denis, 1997, chapitre 6), dans la mesure où ils émanent de la perception du monde représenté (campus) par un petit nombre d’individus. L’interprétation de ces propositions visuelles, qui ne sera pas forcément la même d’un sujet à un autre, va avoir un impact sur les apprentissages linguistiques associés. Ces apprentissages sont en outre réalisés en mobilité, par la navigation et dépendent des déplacements de l’avatar, qui font apparaitre petit à petit le paysage virtuel. Dans son analyse de la description d’itinéraire, Denis présente les macro-opérations nécessaires à cette tâche, dont la première serait l’activation d’une « représentation interne ». Cette représentation interne découle d’un apprentissage multimodal réunissant « l’expérience visuelle de l’environnement, l’expérience ambulatoire liée aux déplacements, l’expérience issue du traitement d’informations symboliques ». Nous prendrons appui sur cette théorie pour étudier les discours produits dans le monde R2D, en relation intermodale avec les ressources sémiotiques. Nous aborderons également la navigation à l’intérieur de la multimodalité (la navigation entre les différentes modalités d’interaction proposées par l’interface) via l’appréhension du MV en tant qu’« hypermédia », tel qu’envisagé chez Tricot (1993, 2006) et Collard (2012). En plus des déplacements spatiaux des avatars, il nous est nécessaire de considérer la navigation entre les différents éléments d’information en présence dans notre environnement, agencés de façon non linéaire.

2.3. FOU et Littératies universitaires

L’objectif de cette étude étant d’envisager le monde R2D comme un lieu de familiarisation des EI avec leur contexte d’étude, nous avons également pris en compte les recherches liées à l’élaboration de dispositifs d’enseignement-apprentissage du Français sur Objectif Universitaire (FOU) (Mangiante et Parpette, 2011) et celles liées à l’analyse des besoins dits « opérationnels » des étudiant·es (Puren et Davanture, 2020). Ces études ont guidé l’élaboration des modules de FOU/acculturation universitaire qui composent le parcours d’apprentissage de notre expérimentation. Comme expliqué précédemment, les étudiant∙es de Master ont décidé des thématiques qui leur semblaient pertinentes et ont développé des tâches relevant du FOU. Selon la définition proposée en introduction (Prunet et al., 2020), l’acculturation universitaire nécessite également un repérage dans l’espace et l’apprentissage de pratiques langagières diverses, en contexte. Danos et Grassin (2024) nomment cette compétence « socialisation langagière » et adoptent une « approche spatiale » des apprentissages (ibid.). Cette approche a inspiré les décisions quant au positionnement des modules FOU dans le MV, dans des lieux clés liés à la thématique du module, pour en évaluer les potentielles marques « d’apprentissage situé » (ibid.). En outre, l’environnement virtuel présenté sera potentiellement utilisé par une grande partie des enseignant·es et étudiant·es de l’université. C’est pourquoi les « étudiants-acteurs » portent attention à la littératie numérique académique et notamment aux usages observables de ce nouvel environnement numérique de l’établissement qu’ils ne connaissent pas (Soubrié et Zourou, 2011, p. 3).

3. Méthodologie

La méthodologie décrite dans cette partie est inspirée de celle adoptée dans une précédente expérimentation (Hervé-Pécot, 2024). Nous avons adapté la méthodologie en nous basant sur les résultats obtenus avec la première expérimentation et sur les modifications opérées sur la plateforme par les concepteur·rices (notamment les nouvelles fonctionnalités liées à l’interaction langagière). Nous présentons ainsi la réflexion pré-expérimentation, les conditions de mise en place, la terminologie adoptée pour la description des phénomènes observés et le traitement des données obtenues.

3.1. Mise en place d’une expérimentation guidée

Dans l’espace virtuel exploré, l’usager·ère se présente sous la forme d’un avatar que l’on peut personnaliser et dont on maîtrise les déplacements dans l’espace. WorkAdventure ne donne pas aux usager·ères la possibilité de modifier les artefacts présents sur la carte (contrairement à la plateforme GatherTown, par exemple). Le MV dont il est question ici est en ce sens stable.

La plateforme WorkAdventure hébergeant ce monde présente un nombre important de canaux de communication, comparé à d’autres plateformes telles que Zoom, par exemple. Hervé-Pécot et al. (2024) ont mis au jour une typologie des interactions observables dans le monde R2D. Nous l’avons mise à jour :

**Figure 3.** Typologie des interactions observables dans le monde R2D.

Les usager·ères peuvent communiquer dans deux types d’espaces : directement dans le MV (figure de gauche) et dans une zone de visioconférence Jitsi (figure de droite), elle-même intégrée au MV.

Dans le MV, au moment de la connexion, les usager∙ère·s ont d’abord accès à la conversation générale de la plateforme et à un bouton de sélection d’émojis. Un émoji sera alors visible dans la conservation. Il est possible de l’échanger avec celui d’un·e interactant·e. On peut déplacer son avatar et le rapprocher d’un autre et ainsi ouvrir une bulle de conversation, dans laquelle on peut communiquer en clavardant ou en utilisant le micro, la caméra ou le partage d’écran³.

Les zones « Jitsi » (figure de droite) proposent également le micro, la caméra, les émojis et le partage d’écran. Le bouton « émojis » diffère de celui du MV par le fait qu’il offre la fonction « lever/baisser la main ». Il n’est donc pas réservé qu’à l’expression d’une réaction ou d’une émotion, mais soutient aussi la gestion des tours de parole.

En nous appuyant sur l’analyse des résultats d’une expérimentation pilote menée en 2022 (Hervé-Pécot et al., 2024), nous avons procédé à la mise en place d’une seconde expérimentation dans le MV RENNES2D en avril 2024.

L’étude des interactions multimodales se fait, selon les objectifs, par différentes méthodologies, impliquant des enregistrements vidéo, des questionnaires, des entretiens, voire des outils d’oculométrie (Amoyal et al., 2022, p. 15). L’élaboration de ce nouveau corpus s’est faite par des captations vidéo sur les ordinateurs utilisés par les participant·es afin de collecter le plus grand nombre d’interactions et leur diversité.

Nous avons opté pour une captation vidéo multiécrans : chaque participant·e était installé·e devant un ordinateur de l’université, doté du logiciel OBS (Open Broadcaster Software, logiciel libre de captation vidéo et diffusion en continu). Chacun·e était dans une salle et accompagné·e d’une personne de l’équipe d’expérimentation. Plusieurs rencontres ont été planifiées avec des groupes d’EI de niveau B2 de l’université, grâce à la coopération des enseignant·es de ces groupes. Une cohorte de 12 étudiant·es a été réunie pour une présentation plus détaillée de l’expérimentation et une explication précise de leurs droits vis-à-vis des données qui allaient être collectées. In fine, neuf étudiant·es ont pu participer et ont signé l’autorisation d’exploitation des données obtenues.

Nous adoptons une approche hypothético-inductive en adoptant un cadre qui permet l’observation de phénomènes interactionnels formulés dans notre hypothèse de départ. Les participant·es sont invité·es à tester le parcours de découverte des services de l’université et des lieux et activités les plus appréciés des étudiant·es de Rennes, grâce à une exploration du MV. Ils ont pour consigne de réaliser le parcours en collaborant avec les autres participant·es de la session et une limite de temps de 45 minutes leur est imposée. Cette contrainte temporelle est imposée à la fois pour encourager une rapide entrée en interactions langagières des participant·es mais également pour éviter un épuisement cognitif. L’objectif est ici d’inciter les usager·ères à interagir verbalement pour observer dans leur discours et leurs actions la manière dont ils donnent du sens à l’environnement.

Profils des participant·es	EI de niveau B2
Nombre de participant·es (dans le MV)	9 EI + 1 doctorante (présente virtuellement pour donner les consignes de départ, guider les premières interactions et intervenir en cas de difficulté technique)
Lieu de participation	En présentiel
Accompagnement	Par une partie de l’équipe projet (2 doctorantes, 1 ingénieure pédagogique, 1 étudiante de Master)
Dispositif testé	Parcours de découverte pour étudiant·es en mobilité entrante (MAPI – Modules d’Acculturation Pour Internationaux·ales)
Sessions	3 sessions d’une heure
Données récoltées	12 heures d’enregistrements vidéo : 4 enregistrements par session (1 enregistrement par participant·e + 1 enregistrement sur le poste de la doctorante) 5 entretiens post-tests avec questionnaires

Tableau 1. Description de l’expérimentation MAPI.

Les participant·es ont été réuni·es en trois groupes de trois personnes selon leurs disponibilités. Le quatrième comptait deux absents donc la quatrième session de test a été annulée. Chaque session était enregistrée sur les ordinateurs des participant·es et sur celui de la doctorante (présente dans le MV en tant que facilitatrice). Les participant·es étaient réparti·es dans des pièces séparées mais communicantes, afin de limiter le bruit ambiant et la distraction que peut entrainer leur coprésence physique, tout en permettant aux accompagnatrices de facilement circuler entre les pièces au besoin. La doctorante ayant organisé le test a pris la décision de rester présente dans le MV pour aider les participant·es à résoudre des problèmes techniques ou pour les guider par le déplacement de son avatar dans R2D, ainsi que pour effectuer une captation depuis son écran et accéder à son propre discours de « guide ». Une autre option pour rendre l’expérimentation plus neutre aurait été de solliciter une membre de l’équipe, mais aucune hormis la doctorante ne maitrisait réellement le parcours MAPI (connaissance des énigmes, indices, mots de passe). La doctorante a ainsi décidé de prendre en charge elle-même cet accompagnement. Au total, 12 heures de données vidéo ont été collectées. Des entretiens post-tests individuels ont eu lieu quelques jours après la journée de tests ; cinq des neuf participant·es ont pu se rendre disponibles. Les entretiens étaient non directifs et visaient à accompagner le remplissage d’un questionnaire portant sur leur ressenti vis-à-vis du MV. Ces entretiens ont également permis de recueillir des réactions informelles à l’oral.

L’analyse présentée ici porte sur deux des vidéos enregistrées. Compte tenu de la taille importante du corpus multimodal obtenu (12 heures) et du degré de détail des annotations envisagées, nous avons tout d’abord procédé à un visionnage exploratoire d’une des vidéos enregistrées, du point de vue d’un participant. Afin de ne pas privilégier une vision biaisée des interactions attendues à l’observation ou particulièrement singulières détectées au moment de la captation, nous avons choisi la première vidéo des sessions 1 et 2.

Après ces visionnages accompagnés de prises de notes, nous avons préparé le traitement des données obtenues en nous concentrant sur les interactions spatiales et sociolangagières. L’hypothèse de départ est que le MV créé offrirait un espace d’entrainement à l’interaction. Les EI pourraient à la fois explorer l’espace campus virtuel et en appréhender la configuration physique, mais également y trouver des informations sur les services (BU, RU, etc.) et sur les lieux propices aux interactions disponibles sur le campus (comme la salle de spectacle). Nous émettons également l’hypothèse que le fait de déplacer l’avatar permet une expérience plus immersive et engageante des EI en leur donnant la possibilité de se projeter mentalement dans l’espace. Par ailleurs, à l’aide de l’expérimentation mise en place, nous souhaitons dévoiler les traces de collaboration et de co-construction du sens donné au MV par le biais des interactions langagières.

3.2. Choix terminologiques pour la description de l’interface

Avant traitement, une sélection rigoureuse des termes employés pour décrire les espaces a été nécessaire. Dans les annotations et commentaires effectués sur ELAN, on recense deux grands types d’espaces : 1) les lieux du MV, matérialisés par la représentation 2D du campus (et de tous les objets qui s’y trouvent : bâtiments, chemins, espaces verts, intérieur des bâtiments, salles, amphithéâtres, etc.) ; 2) les interfaces (chats, espaces de visioconférence, liens vers les ressources externes donnant accès à des activités interactives). Ces espaces coexistent en plus ou moins grand nombre pendant l’exploration de l’usager·ère et cela implique une imbrication d’écrans et de fenêtres. Nous avons choisi de nommer « écran » les espaces visuels les plus grands et les plus englobants : le MV et la partie apparaissant à droite (occupant la moitié de l’espace visible) correspondant à un module d’activité. À l’intérieur de ces écrans vont apparaitre et disparaître des « fenêtres » en fonction des interactions des usager·ères avec les ressources. On trouve dans ces fenêtres différents supports, liens et boutons permettant l’interactivité. Dans la figure 5, nous avons volontairement sélectionné la capture d’un segment où l’écran est particulièrement saturé dans le but de montrer la profusion d’éléments interactifs présents simultanément lors de la réalisation d’une tâche collaborative. On y voit également l’espace occupé par les différentes fenêtres imbriquées.

**Figure 4.** Capture d’écran de « flipflop » : imbrication des éléments « écrans », « fenêtres » et « boutons ».

Les termes présentés ici permettent une identification systématique des objets mentionnés dans les annotations ELAN, ce qui facilite l’analyse de la navigation entre les ressources sémiotiques par recherche d’occurrences.

3.3. Traitement des données multimodales

Le traitement des données multimodales est complexe et nécessite de définir précisément les éléments qui permettront de répondre à l’hypothèse de départ. Le corpus dont nous disposons est vaste et il est difficile d’envisager une transcription ou une annotation de la multimodalité dans son ensemble. Certain·es chercheur·ses analysent par exemple la présence visuelle (Guichon, 2017), la gestuelle ou le mouvement des yeux (Cappellini et al., 2023) accompagnant la production langagière. Étant donné que notre intérêt porte sur les interactions spatiales et langagières, nous avons choisi de nous concentrer sur deux types de traitements : un relevé manuel des interactions langagières (transcription) et spatiales (annotations) via le logiciel ELAN et un traçage semi-automatique des déplacements des avatars avec le logiciel SAM-2.

Les traitements (segmentation, transcription orthographique, annotations commentées et traçage SAM2) ont été appliqués sur les vidéos des interactant·es surnommé·es « ciel » et « flipflop » selon leur choix de pseudonymisation pour l’expérimentation. Nous avons adopté les codes suivants pour nommer les participant.es : « ETUC » pour étudiant·e CIREFE (Centre International Rennais d’Études de Français pour Étrangers), « D » pour doctorante, « IP » pour ingénieure pédagogique. L’ensemble des interactant·es sont indiqué·es comme suit dans les transcriptions et annotations :

Vidéo « ciel »/ETUC1 : ETUC1, ETUC2, ETUC3, D1, D2, IP1, IP2
Vidéo « flipflop »/ETUC4 : ETUC4, ETUC5, ETUC6, D1, D2, IP1, IP2

Pour observer au mieux la « construction du discours-en-interaction dans son ensemble » (Leroux et Manoïlov, 2023), nous avons choisi l’outil de transcription ELAN. Les conventions de transcription de l’étude d’Hervé et al. (2024) ont été réutilisées et, afin de proposer une description détaillée des interactions autres que langagières orales, nous avons fait le choix de travailler sur sept lignes (ou « acteur » ou « tier » selon la terminologie ELAN utilisée) : une ligne de segmentation/transcription orthographique des interactions verbales pour chaque locuteur·rice (ci-dessous : « ETUC1 », « ETUC2 », « ETUC3 ») et une ligne intitulée « Interactions » pour l’ensemble des interactions autres que verbales de l’interactant·e dont on observe la vidéo (« ETUC1_interaction »).

**Figure 5.** Transcription et annotations ELAN de la vidéo de « flipflop »/ETUC1.

Deux types d’informations sont indiqués : les catégories d’interactions (voir tableau ci-après) et les descriptions de ces catégories d’interactions sont ajoutées dans des commentaires de ces mêmes segments.

Catégories			Description	Code ELAN	Exemple de commentaire
Interactions langagières	Interactions orales	Interactions en présentiel	Interactions avec une personne présente près de l’ordinateur	IPres	semble s’adresser à IP1 ou IP2 Q+R
		Bulle de conversation WA	Interactions dans une bulle de conversation ouverte par le rapprochement de deux avatars (interactions orales par micro et posturo-mimo-gestuelles)	IAAO_bulle	avec D1 et ETUC6 et ETUC5 – oral + gestuelle
		Visioconférence Jitsi	Interactions dans un espace de visioconférence imposé par la carte créée sur WorkAdventure	IAAO_Jitsi	répond à D1
	Interactions écrites	Bulle de conversation WA	Interactions écrites par l’utilisation du clavardage + utilisation des émojis	IAAE_bulle	clique dans la barre de texte du chat et commence à écrire + IAAE + IAAO avec D1 ETUC5 et ETUC6
	Interactions écrites	Visioconférence Jitsi	Interactions écrites par l’utilisation du clavardage inclus dans l’espace de visioconférence Jitsi imposé par la carte	IAAE_Jitsi	(aucune occurrence)
Interactions non langagières	Interactions avec l’interface	Clic ; déplacement de la souris	Clics sur les différents éléments présents à l’écran ; déplacement de la souris	IInter	clique sur la flèche d’envoi de message à côté de la barre de texte du chat puis déplace souris sur croix blanche carré rouge et clique pour fermer la fenêtre de chat MV
	Interactions avec l’espace	Déplacement	Déplacements des avatars sur la carte virtuelle 2D (vers un avatar, un lieu ou un objet)	IEsp_dep	déplacement de l’avatar – entrée et sortie de bulle de conversation avec ETUC5 Taryno
	Interactions avec l’espace	Changement de carte WA	Passage d’une carte virtuelle à une autre	IEsp_carte	carte ‘formation’ > carte ‘campus villejean’

Tableau 2. Catégories d’interactions annotées dans ELAN.

Le traitement choisi a l’avantage de procurer une description détaillée des types d’interactions répertoriés pendant l’observation initiale, articulant, « dans un même ensemble, les éléments verbaux, co-verbaux, visuels » (Guichon et al., 2022, p. 7) et d’autres éléments non verbaux liés au déplacement et à l’interaction avec l’interface. Cette appréhension englobante des interactions révèle ainsi les activités en jeu lors des échanges virtuels effectués dans cet environnement.

Un second traitement des données a été effectué en parallèle par un ingénieur de recherche de la plateforme FAIIA⁴ (facility for artificial intelligence and image analysis) afin de prendre des mesures des déplacements et des distances entre les avatars. Avec ces mesures, nous souhaitons : observer dans les déplacements des avatars si le repérage spatial et l’identification des objets et des autres avatars sont réalisés aisément ou avec difficulté, puis observer les interactions spatiales des avatars entre eux (distances entre eux et déplacements communs). L’outil de segmentation SAM 2 (Ravi et al., 2024) a été utilisé pour détecter, à tout instant, la présence d’avatars dans des segments de vidéo. Pour ce faire, il a fallu définir d’une part des « boites englobantes » ou « bounding boxes » (ibid.) qui correspondent à des zones d’images contenant un avatar, et d’autre part des plages temporelles sur lesquelles la détection est réalisée. Une fois la requête de détection terminée sur une plage temporelle, on s’est assuré que la détection était correctement effectuée à chaque instant, et dans le cas contraire, une nouvelle boite englobante était définie pour chaque segment où la détection avait échoué.

**Figure 6.** Captures d’écran montrant le suivi de l’avatar « ciel »/ETUC4 avec SAM2.

Après ces deux étapes, on obtient un traçage complet et corrigé des déplacements des avatars.

L’ensemble de ces traitements de données a donné lieu à une analyse de la manière dont les usager∙ères interagissent dans le monde RENNES2D.

4. Multimodalité et actualisation des espaces et objets dans l’espace

L’analyse des données comporte deux parties : une analyse des déplacements et des distances entre avatars combinant les annotations « interactions » dans ELAN et les résultats obtenus avec SAM2 ; une analyse du discours et des modalités de discours.

4.1. Espace virtuel : déplacements et trajets

4.1.1. Interprétation des traces de déplacements des avatars

La première analyse effectuée après traitement des données s’est portée sur les interactions avec l’espace, et dans notre cas, il s’agit des déplacements des avatars dans le MV, qui témoignent du rapport à l’espace virtuel des participant·es.

Dans les annotations ELAN, nous avons relevé le nombre de déplacements codés « IEsp » pour les interactions avec l’espace et avons distingué deux types de déplacements : « IEsp_dep » pour les déplacements de l’avatar à l’intérieur d’une carte et « IEsp_carte » pour les déplacements de l’avatar d’une carte virtuelle à une autre :

**Figure 7.** Annotations des déplacements dans ELAN.

Nous notons ici que l’écart entre le nombre de déplacements des avatars (« IEsp_dep ») de « ciel »/ETUC1 et « flipflop »/ETUC4 est peu important : ETUC1 a déplacé 68 fois son avatar, et ETUC4 l’a déplacé 62 fois. En revanche, on remarque qu’ETUC1 a visité plus de cartes virtuelles qu’ETUC4 : les annotations « IEsp_carte » indiquent 23 changements de carte pour « ciel »/ETUC1 contre 11 pour ETUC4/« flipflop ».

Ces écarts sur les deux types de déplacement s’expliquent par les modifications apportées entre la session de « ciel » et celle de « flipflop ». En effet, dans la session de « ciel », les participant·es ont reçu peu d’accompagnement par la facilitatrice responsable de l’expérimentation (dont l’avatar était visible dans le MV mais souvent inactif). Il en résulte une plus grande liberté laissée aux usager·ères d’explorer le MV comme bon leur semble. On remarque d’ailleurs dans la figure 6 que ETUC1/’« ciel » correspond (d’après les estimations de distances et les vérifications par visionnage des vidéos des autres avatars) à l’avatar qui parcourt la plus grande distance au total. Sur la vidéo, on voit qu’elle s’éloigne souvent des autres membres du groupe pour découvrir seule l’espace, de façon aléatoire, ou pour chercher un objet lié au parcours testé. Les deux autres avatars du groupe restent ensemble tout le temps de l’expérimentation.

Dans la session de « flipflop », en revanche, la facilitatrice (D1) a été beaucoup plus présente virtuellement tout au long du test. Malgré les consignes encourageant la collaboration pour la résolution des tâches et des énigmes, nous avons remarqué que les étudiant·es peinaient parfois à interagir ensemble. De ce fait, l’avatar de la facilitatrice était présent et restait à proximité et les participant·es sont resté·es en groupe. Ils·elles ont moins exploré individuellement et se sont plus concentré·es sur l’exécution des activités.

Cela s’observe également dans les graphiques ci-après, représentant la proportion de temps passé par les avatars « ciel »/ETUC1 et « flipflop »/ETUC4 en compagnie des autres avatars. La mesure des distances entre les avatars a permis le repérage des moments où ils étaient proches. La situation « proche » correspond à une distance inférieure au diamètre d’une bulle de conversation du MV.

**Figure 8.** Extraction de traces de coprésence dans SAM2.

Les histogrammes illustrent ce qui a été mentionné précédemment : l’avatar de D1 a passé beaucoup moins de temps à proximité de celui d’ETUC1 (12 %) que de celui d’ETUC4 (70 %) et on observe que cela a une incidence sur la coprésence avec les autres avatars. Comparé à ETUC4, ETUC1 passe moins de temps avec les membres de son groupe.

4.1.2. Espaces visités par les avatars

Dans la figure 7, on note aussi une différence sur le nombre de passages d’une carte virtuelle à une autre. ETUC1 en compte 23 contre 11 pour ETUC4. Cela se vérifie dans les commentaires dans ELAN :

ETUC1 visite les cartes : « formation » (carte de départ) ; « campus Villejean » (carte principale) ; « bâtiments présidence-tambour » ; « intérieur bâtiment Présidence » ; « métro » ; « campus Beaulieu » ; « Declame’FLE »
ETUC4 visite les cartes : « formation » ; « campus Villejean » ; « présidence-tambour » ; « intérieur bâtiment Présidence » ; « métro »

ETUC1 visite donc deux cartes virtuelles de plus que celles traversées par ETUC4. Elle traverse en fait deux cartes qui ne font pas partie du parcours (« campus Beaulieu » et « Declame’FLE ») alors qu’ETUC4 se déplace seulement dans les cartes liées au parcours de modules.

À l’intérieur des cartes, les avatars ETUC1 et ETUC4 se déplacent vers les éléments suivants :

Avatar : 21 (ETUC1) ; 25 (ETUC4)
Lieux extérieurs (exemple : « devant station métro ») : 5 (ETUC1) ; 4 (ETUC4)
Bâtiments (exemple : « bâtiment Présidence ») : 14 (ETUC1) ; 4 (ETUC4)
Objets décoratifs ou mobilier (exemple : « plante » ou « table ») : 20 (ETUC1) ; 13 (ETUC4)

Dans les deux sessions, les déplacements des avatars sont majoritairement orientés vers les autres avatars, du fait de la consigne de travail collaboratif. On note dans les relevés précédents que l’avatar d’ETUC1 approche 14 bâtiments contre 4 pour celui d’ETUC4, ce qui témoigne d’un périmètre d’exploration plus étendu pour ETUC1. ETUC1 interagit avec un plus grand nombre d’objets en en approchant son avatar et parfois en cliquant sur l’objet.

4.1.3. Naviguer sur l’interface : repérer les informations

Si les déplacements relevés des avatars sont nombreux, ils le sont beaucoup moins en comparaison aux déplacements effectués par la souris sur les écrans. Dans les commentaires associés aux annotations ELAN, on compte 60 occurrences du mot « souris », associées soit au verbe « déplacer » ou au verbe « passer » pour la session « ciel ».

0 h 32 min 4,345 s

00 h 32 min 14,994s

IAAO_BULLE

à ETUC2 + IInter > passe la souris sur une réponse de l’activité + clique sur la flèche du bas gauche module CMI

Figure 9. Extrait des données ELAN – ligne « Interactions’ ».

Pour ETUC4, le nombre d’occurrences est beaucoup plus élevé : 200 mouvements de souris (nous utiliserons le terme « curseur » par la suite) ont été détectés et signalés en commentaires des annotations de type « IInter », accompagnés par les mêmes verbes. Nous avons également intercepté les « clics » sur les différents éléments de l’écran : ETUC1 cumule 180 clics contre 120 pour ETUC4.

On note ici un écart entre le nombre de clics et de mouvements de curseur pour ETUC1 qui indique peut-être une différence du traitement des commentaires entre les deux vidéos. Il semble en effet peu probable qu’il y ait moins de mouvements de curseur que de clics sur l’écran. La détection des mouvements du curseur semble avoir été signalée plus rigoureusement au moment de l’annotation de la deuxième vidéo (ETUC4).

Nous pouvons tout de même observer que les déplacements de curseur et les clics sur l’écran sont très nombreux et montrent que le temps est surtout alloué à la recherche d’éléments interactifs, ou cliquables, sur l’écran. Les déplacements du curseur sont dans les deux cas plus nombreux que les déplacements d’avatars.

Les déplacements de curseur sont dirigés vers diverses ressources sémiotiques :

boutons permettant d’utiliser certains canaux de communication (par exemple, le bouton « chat » pour ouvrir la fenêtre de clavardage, vers laquelle il faudra de nouveau déplacer le curseur pour cliquer dans la barre de rédaction. puis, après la rédaction du message, vers le bouton « flèche » pour procéder à l’envoi);
éléments du MV : les usager·ères de nos sessions déplacent parfois le curseur vers des zones du MV pour chercher des objets cliquables;
boutons d’interactivité des activités : les modules testés sont conçus avec des outils numériques demandant un déplacement régulier du curseur, notamment pour sélectionner des réponses à des questions, déplacer un objet sur une image ou sélectionner une zone de texte, puis pour cliquer sur les boutons permettant de valider ou invalider les réponses proposées et sur les boutons d’accès aux diapositives suivantes ou précédentes.

Ces déplacements de curseur renseignent sur l’activité de recherche d’information par les usager·ères et de gestion des éléments apparaissant à l’écran.

À la lumière de cette analyse des déplacements, nous constatons que deux types de déplacement s’opèrent à l’écran : la navigation des avatars matérialisée par le décor qui défile derrière eux et celle du curseur entre les éléments d’informations affichés sur l’écran. Dans le corpus, nous observons que ces deux types de navigation ne sont jamais réalisés simultanément. Nous assistons alors à ce qui s’apparente à une « navigation segmentée » : soit l’usager·ère manipule l’avatar (avec les touches du clavier), soit il·elle déplace le curseur sur l’écran (avec le curseur). Cette segmentation pourrait avoir un impact sur l’engagement des usager·ères dans les interactions sociolangagières.

La navigation (avatar ou curseur) affecte également la prise de parole. En effet, lorsque les avatars se trouvent à un endroit ensemble et décident de se rendre vers un autre endroit ensemble, il leur semble difficile de le faire en restant à l’intérieur de la même bulle. Ils se suivent mais ne maintiennent pas la proximité permettant l’accès à une bulle de conversation. Nous n’observons pas de prise de parole « en déplacement » dans notre corpus. De la même façon, la navigation sur les ressources sémiotiques présentes à l’écran entraine parfois des hésitations ou des troncations dans le discours des interactant·es. Dans l’extrait suivant, les interactant∙es regardent l’écran partagé par ETUC4 et négocient sur la manière de procéder pour réaliser la tâche demandée (ici il s’agit d’une activité requérant une recherche sur le site Internet du CMI – Centre de Mobilité Internationale – pour répondre à des questions) :

ETUC4 « envie de dé- découvrir Rennes et la Bretagne # allons voir ensemble ce que propose le C le CMI # euh dans son agenda # agenda culturel » [fin de lecture] # parfait oh # en fait # peut-être on doit # euh cliquer les euh les liens ? # ça peut-être ? # personne ?

ETUC5 hmmm peut-être oui

ETUC4 alors on on clique

ETUC5 oui oui

ETUC6 oui

ETUC4 d’accord # ah

ETUC6 waaaa ?

ETUC4 peut-être non

ETUC5 non

ETUC6 non_

ETUC4 aah

ETUC6 retourne attends

ETUC4 mais je retourne

ETUC6 et_

ETUC4 ah___

ETUC6 le bouton_ à le bas # bas droite

ETUC4 ah bon ?

ETUC6 ok # hm

Ici l’attention se concentre sur l’interprétation du texte présenté à l’écran et par la manière d’interagir avec le document. Les prises de parole sont courtes et montrent plusieurs marques d’hésitation ou de doute : les pauses (« #parfait oh # en fait # peut-être »), les allongements de syllabes (« et_ »), les interjections (« euh », « ah »), les répétitions (« bas # bas droite »). On observe ici que la réalisation de la tâche ne consiste pas seulement à comprendre les questions posées et à y répondre, mais nécessite aussi de comprendre le fonctionnement technique de la ressource.

Nous allons à présent aborder les interactions langagières et les liens entretenus avec l’espace virtuel.

4.2. Espace verbal : discours autour des espaces actualisés

Dans les prises de parole collectées par la captation, nous avons choisi de nous concentrer sur deux aspects de la communication des interactant·es : d’abord, sur leurs choix de canaux de communication pour interagir et ensuite, sur la manière dont ils ou elles représentent l’espace dans leur discours.

4.2.1. Multimodalité et espace dans les interactions verbales

4.2.1.1. Canaux de communication privilégiés

Les interactant·es de notre contexte tendent à privilégier la communication orale, du fait des instructions données au départ. En effet, il leur a été demandé de laisser la caméra allumée et de collaborer pour répondre aux questions proposées dans les modules. Cependant, la première phase de l’expérimentation consiste en une présentation des consignes et de quelques fonctionnalités de la plateforme, par la facilitatrice (D1), directement dans le MV. Les participant∙es sont à ce moment attentif·ves au monologue de D1 et les réactions se lisent dans les écrans. Dans les cinq premières minutes des deux vidéos annotées, on remarque des similarités dans les réactions d’ETUC1 et ETUC4 via leur caméra : ETUC1 « ne parle pas mais sourit », « rit », « fait un signe de la main devant la caméra » ; ETUC4 « danse devant la caméra et sourit ». Dans les deux cas, les participant·es restent silencieux·ses pour ne pas perturber la présentation des consignes, mais signalent à la fois leur présence et leur enthousiasme.

La collaboration s’est ensuite effectuée essentiellement à l’oral. Les informations sont partagées à l’oral et parfois avec l’appui d’un support visuel commun : l’écran partagé. L’utilisation de cette fonctionnalité disponible sur la plateforme a également été encouragée au lancement de la session, dans l’idée de faciliter les échanges. Cette demande est respectée dans les deux sessions ; les participant·es partagent spontanément leur écran, et s’organisent efficacement pour décider de la personne responsable du partage. Le partage leur permet d’accéder à une référence visuelle commune qui va régir les échanges et donner un appui à l’interaction verbale. Cette fonctionnalité est utilisée de manières différentes dans les deux sessions. Dans la session de « ciel », deux des trois participantes partagent leur écran, à deux moments différents. La mise en partage est négociée et suivie d’une vérification de la réception visuelle des membres du groupe.

ETUC1 vous pouvez voir euh mon écran ou pas ?

ETUC2 oui

ETUC1 voilà

ETUC1 c’est une personnage ## un personnage # ou un peu d’inf- information sur euh CMI

Ici, ETUC1 vérifie qu’ETUC2 et ETUC3 ont bien accès au visuel partagé depuis son écran. La confirmation lui permet de passer à une brève présentation du contenu. Elles peuvent alors actualiser l’espace de l’écran avec lequel elles interagissent ensemble, en simultané.

Cette fonction permet aux collaboratrices de guider l’utilisation du curseur gérée par ETUC1 :

ETUC2 ok ## cliquez ça ## j’pense que c’est b ?

ETUC1 hm hm [approbation]

La parole accompagne le repérage visuel sur l’écran et permet une collaboration plus efficace qu’en l’absence d’un référent visuel commun.

En effet, pour évaluer l’impact de l’inutilisation du partage d’écran, nous leur avons demandé, dans le cadre d’une activité, d’ouvrir le module chacun·e de leur côté, sans partage d’écran. Les échanges verbaux enregistrés à ce moment de la session montrent les complications engendrées par le non-partage :

ETUC5 euh quand vous faites tous les exercices # vous avez quoi dans votre écran ?

ETUC4 euh__

ETUC6 j’ai fait tous les exercices maintenant il y a un personnage qui ne me donner quelle instruction donc je sais pas quoi j- tu dois faire

ETUC4 euh j’suis ## j’suis pas là # non

ETUC5 c’est moi j’ai déjà f- euh avoir cette comme dialogue entre les deux mais maintenant je ne peux pas_

ETUC4 est sur une diapositive différente de celle d’ETUC5 et ne peut donc pas répondre à sa question. Il est également difficile de comprendre ce à quoi ETUC5 fait référence quand elle écrit « comme dialogue entre les deux » à la fin du segment ci-dessus.

Le partage d’écran assure donc aux participant·es une meilleure appréhension de la lisibilité des contenus communs. On constate encore que le jeu d’ouverture et de fermeture du partage d’écran donne à celui qui partage son écran un rôle énonciatif et discursif distinct. Ainsi, quand ETUC4 partage son écran, il lit à voix haute tous les textes présentés dans les diapositives des activités (et propose même une intonation adaptée à la situation exposée). Il semble vouloir ajouter une dimension de partage supplémentaire en accompagnant le visuel d’une interprétation oralisée du texte affiché. On peut alors faire l’hypothèse suivante : le fait de partager son écran le rendait responsable de la bonne réception du texte. Par une lecture à voix haute, il s’assure de la compréhension du texte par ses interactant·es. Il assume en quelque sorte un double rôle technodiscursif (Develotte et al., 2017) : il met à disposition le visuel commun en partage d’écran et assure la lecture oralisée des contenus de ce visuel.

L’interaction langagière est soutenue par d’autres modalités : les expressions faciales ou gestes produits devant la caméra, par exemple, ou les échanges écrits dans le clavardage. Le clavardage est cependant très peu utilisé par les interactant·es (malgré une absence de contre-indication dans les consignes) et quand certains gestes ou réactions sont réalisés devant les caméras, ils ne semblent pas retenir l’attention des interlocuteur·rices occupé·es à interpréter des ressources sémiotiques liées à l’accomplissement des tâches. Il faudrait vérifier cette hypothèse en utilisant un outil de traçage du regard.

4.2.1.2. Rapport à l’espace dans les interactions verbales

La transcription des échanges montre un grand nombre d’occurrences faisant référence aux déplacements et à des lieux visités.

Dans les échanges entre ETUC1 et les participant·es de sa session, on note plusieurs verbes comme « sortir », « aller », « se déplacer », « revenir », « suivre », « avancer », « arriver », « quitter », « rentrer », « se rapprocher ». Les lieux mentionnés sont de quatre types : les lieux représentés dans le MV (« le bâtiment P », « le bâtiment T », « le métro », « la bibliothèque »), les lieux présentés dans les activités (« le CMI ») et les lieux réels, provenant de l’interprétation donnée par les participant·es aux représentations virtuelles (« le Star », qui est le nom du système de transports en commun de la ville de Rennes) et les lieux d’interaction (« dans la bulle », qui fait référence à la bulle de conversation).

Dans ceux observés entre ETUC4 et son groupe, on trouve des occurrences du même type : « venir » ; « suivre » ; « sortir » ; « aller » ; « retourner » ; « arriver » ; « promener » (avec le sens de « déplacer [un objet] »). Dans cet échange, nous trouvons trois types de lieux : lieux virtuels (« la station de métro »), lieux proposés dans les activités proposées (« Rennes et la Bretagne ») et les lieux d’interaction (« dans la bulle rouge »).

Les deux transcriptions montrent également des « lieux » faisant référence à des zones de l’écran : « en haut à droite de l’écran », par exemple, qui témoignent des déplacements effectués avec le curseur pour interagir avec l’interface. Là encore, les annotations et commentaires viennent confirmer un grand nombre de déplacements du curseur sur l’écran pour accéder à des ressources, faire les activités interactives et utiliser les canaux de communication.

4.2.2. Intermodalité des interactions verbales et des ressources sémiotiques

Les observations ci-dessus nous permettent d’envisager une relation intermodale (Azaoui, 2019) entre les ressources sémiotiques. La multimodalité des canaux de communication (orale, visuelle, textuelle) entre en synergie avec les ressources sémiotiques disponibles à l’écran : des représentations virtuelles de lieux, des objets interactifs renfermant des activités multimodales (vidéo, texte, bouton interactif, rétroaction automatisée sonore ou textuelle), pictogrammes de l’interface. Ces ressources sont interprétées individuellement mais également collectivement par les interactions verbales.

On pourrait parler ici de « spatialisation des discours numériques » : les discours numériques sont situés dans un espace virtuel soumis à l’interprétation du groupe qui le visite. La construction du sens qui est donné à ces interprétations des espaces visuels passe par le recours aux représentations mentales individuelles puis partagées des participant·es qui font référence à des expériences et connaissances du monde physique. Pour le lieu « métro », par exemple, dans la vidéo « ciel », une des locutrices « active une représentation interne » (Denis et Briffault, 1997) de la ligne de métro B de Rennes, issue de son « répertoire mental d’environnements spatiaux (ou “cartes cognitives”) » (ibid.), développé grâce à un « riche ensemble d’expériences : l’expérience visuelle de l’environnement, l’expérience ambulatoire liée aux déplacements, l’expérience issue du traitement d’informations symboliques, comme des cartes ou des plans » (ibid.) :

ETUC3 il existe # ligne C non ?

ETUC2 non # mais_ ligne b euh jamais fonctionne # fonctionne jam- jamais

Le commentaire d’ETUC2 dévoile une expérience d’utilisation des transports en commun : elle sait « d’expérience » que la ligne B a été perturbée. Elle peut donc traiter l’information symbolique présentée par l’activité, information renforcée par la modélisation 2D de la station de métro dans le MV, qui est rendue accessible par la manipulation de la plateforme et l’outil numérique.

L’intermodalité permet ici d’établir un lien entre l’expérience virtuelle et une expérience réelle.

5. Chemins de l’apprentissage dans le monde virtuel RENNES2D

La mise en synergies des différents niveaux d’interaction permet d’envisager les potentiels apprentissages développés par l’utilisation de cette plateforme et dévoile les « chemins empruntés par les usager·ères pour accéder au savoir » (Soubrié et Zourou, 2011). L’analyse des résultats montre que les étudiant·es impliqué·es dans notre expérimentation établissent des liens, des connexions entre eux∙elles et entre les différents éléments d’information qu’il leur est donné d’explorer. En effet, nous observons dans les données collectées, que les apprentissages réalisés par la navigation de l’avatar dans le MV est couplée à celle de l’usager·ère dans l’hypermédia.

5.1. Être présent via un avatar

La présence par le truchement de l’avatar semble bénéfique à l’immersion et offre la possibilité de se projeter. Comme le souligne Privas-Bréauté à propos de Second Life, le monde R2D permet « d’immerger les apprenants dans des situations de communication » (Privas-Bréauté, 2016) où ils·elles deviennent à la fois « acteurs et spectateurs de leur apprentissage ». Dans cette étude, la création des avatars offre une distanciation (ibid.) des étudiant·es-testeur·ses vis-à-vis de la situation de communication. Ils·elles ne se connaissent pas mais sont tenu·es par le cadre de l’expérimentation d’interagir verbalement. En utilisant leur avatar, ils·elles peuvent interagir avec une appréhension potentiellement réduite, puisqu’ils·elles ne se dévoilent pas directement. L’aspect ludique de R2D et le parcours proposé renforcent cette sensation de participer à un jeu et favorise donc la distanciation. Cette similarité entre le MV et les jeux vidéo est d’ailleurs perçue dans le corpus : ETUC5 déclare en début de session que le nom de son avatar est celui qu’elle utilise quand elle joue à un jeu vidéo (« moi je toujours avoir euh cet nom pour les personnages si je joue quelque chose # donc c’est déjà euh mon nom pour tous les_ # oui »). Second Life donne aux joueur·euses la possibilité d’interagir avec leur environnement et de le coconstruire en en modifiant l’aspect (Wigham, 2012). Dans R2D, l’interactivité est limitée à la modification de l’avatar de l’usager·ère, à la possibilité de le mouvoir et de le faire communiquer (lorsqu’un·e usager·ère s’exprime à l’oral ou à l’écrit, une petite bulle bleue apparait à l’écran pour matérialiser la prise de parole). Certes, l’usager·ère-avatar ne peut se saisir d’objets ni les déplacer, mais poursuit son activité, qui est visible pour lui·elle et pour les co-participant·es. La coprésence est en ce sens renforcée par la perception des mouvements de son propre avatar et de ceux des autres. Par ailleurs, le MV est stable : du fait de l’impossibilité de déplacer ou modifier les objets, rien ne bouge. On peut donc y retourner, par soi-même ou en groupe, et retrouver les ressources précédemment découvertes pour interagir avec elles à nouveau (Wigham, 2012). Sa stabilité et sa constance en font un lieu propice à une socialisation spatiale et langagière.

5.2. Se familiariser avec le monde virtuel

Une navigation efficace demande cependant des compétences préalables liées à la manipulation d’objets numériques tels que les avatars et les ressources sémiotiques affichées. Dans l’expérimentation présentée, les apprenant·es sont des EI du supérieur. Le fait qu’ils·elles soient inscrit·es à l’université implique qu’ils·elles aient acquis un certain nombre (difficile à mesurer) de compétences numériques et, compte tenu de l’expérience mondiale de confinement liée à la pandémie de 2020, on peut supposer qu’ils ont tous·tes eu une expérience d’enseignement à distance via une plateforme de visioconférence telle que Zoom, par exemple. En ce sens, ils·elles ont des connaissances en termes de navigation dans les hypermédias leur permettant d’en « élaborer une représentation mentale » (Collard, 2012). Notre étude laisse entrevoir ces connaissances et compétences et celles qui se développent au cours de l’expérimentation. Bien que nous n’ayons pas de données vérifiant cette hypothèse, le comportement des testeur·euses ETUC1 et ETUC4 semble révéler une familiarité avec ce type d’environnement. La rapidité de leur prise en main des éléments de navigation laisse penser qu’ils·elles ont expérimenté ce type de dispositif par le passé : ETUC1 et ETUC4 entrent directement « en action », ne posent pas de questions sur la personnalisation ou le déplacement de l’avatar (des indications sont présentées brièvement en début de session et semblent assimilées après une seule exposition pour ces deux étudiant·es). ETUC1 explore un grand nombre de cartes virtuelles et, selon nous, cela s’apparente à l’adoption d’une « stratégie exploratoire » (Tricot, 1993) visant à obtenir une vue globale, une cartographie des informations mises à disposition dans le MV. Elle choisit en quelque sorte de regarder partout pour avoir une idée plus précise des lieux et des objets représentés avant de réaliser les tâches du parcours. ETUC1 part explorer le reste de la carte et s’éloigne considérablement des ressources exploitées pour le parcours. Elle quitte la carte du campus Villejean à plusieurs reprises et traverse des cartes non associées aux modules testés. Elle ne semble pas pour autant perdue, elle ne s’arrête pas et identifie aisément les entrées et sorties. En général, les participant·es ayant a priori une expérience du jeu vidéo ou des mondes virtuels sont plus enclin·es à se déplacer aisément et rapidement dans l’espace virtuel. Leur connaissance préalable des environnements modélisés en 2D leur permet de savoir comment interagir avec l’interface à l’aide du clavier et comment identifier les zones et objets d’intérêt du MV. Pour les participant·es moins expérimenté·es, les déplacements sont plus courts et moins fréquents. Il serait donc nécessaire d’envisager un temps d’adaptation à l’environnement plus long. C’est d’ailleurs ce que suggère l’une des réponses aux questionnaires post-test : « je pense on n’a pas eu assez de temps pour s’habituer au jouer » (en réponse à la question : « Avez-vous trouvé facile ou difficile de se déplacer et de trouver des objets ? Expliquez. »).

5.3. Collaborer

La coprésence avec les avatars et la familiarisation plus ou moins rapide avec le MV laissent penser que cet environnement encourage naturellement la collaboration entre usager·ères. Cependant, dans les réponses au questionnaire post-tests, les participant·es ont donné spontanément leur avis et plusieurs ont évoqué une certaine frustration liée à la collaboration imposée. L’une des questions stipulait : « Avez-vous trouvé facile ou difficile d’interagir avec d’autres participants ? Expliquer. » À cette question certain·es participant·es ont notamment répondu : « Je crois qu’il faut permettre les étudiants à explorer tout seul » ou encore « c’est facile mais c’est trop lent et quand j’ai toujours fini avant que les autres j’étais ennuyé ». Nous sommes conscientes du fait que l’acculturation académique et sociolangagière virtuelle espérée se fera plus certainement en autonomie par les futur·es visiteur·ses de R2D. Nous préparons actuellement une nouvelle expérimentation qui laissent les participant·es se déplacer librement. L’expérimentation présentée ici a notamment pour but d’observer la façon dont les usager·ères collaborent et se saisissent des outils de communication, d’où notre choix d’imposer une exploration collective. Les difficultés évoquées ici ne sont donc pas tant liées à l’utilisation de la plateforme, mais aux conditions de l’expérimentation. En outre, le format « parcours » imposait de découvrir les différents lieux dans un ordre précis pour la récupération de mots de passe et de codes donnant accès aux modules suivants. Cela implique une collecte d’informations conséquente qui entraine une sorte de fragmentation de l’attention, due à une « navigation segmentée » observée dans l’analyse. En effet, les usager·ères sont engagé·es dans une double navigation : celle de l’avatar, qui symbolise et réalise le lien visuel avec les lieux et les autres avatars, et la navigation du curseur sur l’écran pour gérer les fenêtres apparaissant à l’écran et réaliser les tâches et résoudre les énigmes. Ces deux types de navigation ne sont pas réalisables simultanément, ce qui implique de faire des choix : soit on déplace son avatar, soit on interagit avec les autres avatars ou avec les objets et les ressources interactives contenues dans les objets. Il est difficile de « parler en marchant » dans le MV car cela nécessite de garder une distance réduite entre deux avatars et de les déplacer à la même vitesse. Nous n’observons pas cette situation dans le corpus : les avatars se déplacent puis entrent en interaction (ou non) une fois arrivés à destination. Lorsqu’ils·elles entrent en interaction dans une bulle de conversation et qu’ils·elles sont à proximité d’un objet-ressource du parcours, leur attention est partagée entre l’interaction langagière et l’interaction avec les ressources présentes à l’intérieur des différents écrans et fenêtres affichées. En outre, nous suggérons que le passage d’un type de navigation à un autre (« avatar » ou « curseur ») nous semble représenter un effort cognitif important : on change de focale et on n’effectue pas la même navigation visuelle sur l’écran.

5.4. Interagir via l’avatar

L’analyse des interactions avec l’interface montre que la compréhension du fonctionnement de l’outil numérique se développe pendant l’expérimentation. Les participant·es apprennent au fur et à mesure à déplacer leur avatar, mais aussi à le déplacer vers des ressources interactives et à entrer en interaction les un·es avec les autres. Au début des deux vidéos, l’ensemble des participant·es montre des signes de surprise (mimiques, expressions orales d’étonnement) au moment de l’apparition de l’écran témoin de visioconférence dans le MV, quand les avatars entrent en contact par les bulles de conversation. La réaction est similaire lorsqu’ils pénètrent sans le savoir dans une zone de visioconférence Jitsi, provoquant alors l’ouverture d’une fenêtre de visioconférence couvrant la moitié de l’écran de l’ordinateur. En outre, le partage d’écran requiert plusieurs étapes. Les participant·es sont accompagné·es par les ingénieures pédagogiques en présentiel pour la première utilisation de cette fonctionnalité, mais les suivantes sont faites en autonomie et sans difficulté.

Par ailleurs, nous remarquons dans les données analysées une absence d’hésitation ou de demande d’aide concernant l’utilisation des canaux de communication : les interactant·es sélectionnent et utilisent sans difficulté le micro et le chat (pour indiquer l’orthographe d’un mot de passe par exemple). Les interactions verbales sont évidemment affectées par la progression de la prise en main de la plateforme. Les prises de parole sont de plus en plus fréquentes au fil de la session et les participant·es deviennent de plus en plus à l’aise d’interagir en utilisant le micro et la caméra, qui sont les deux canaux de communication privilégiés, et maitrisent mieux les codes leur permettant de vérifier s’ils·si elles sont bien engagé·es dans une interaction (par la présence des écrans témoins des interactant·es). La difficulté réside toutefois dans la gestion de la distance entre les avatars. En effet, comme indiqué précédemment (voir parties 4.1 et 5.1.1), pour communiquer, les interactant·es doivent se trouver dans une bulle de conversation qui se matérialise quand deux avatars sont côte à côte (voir figure 8). Cependant, en présence de trois avatars ou plus, il arrive parfois que deux bulles se chevauchent, de sorte que notre avatar peut apparaitre à l’intersection de deux bulles, ce qui ne génère pas pour autant deux espaces de conversation en simultané : l’avatar est en communication soit dans une bulle, soit dans l’autre. Un autre cas possible : notre avatar est proche d’un ou de plusieurs autres avatars, la bulle est visible, mais l’un des avatars présents dans notre écran n’est pas intégré à notre bulle de conversation. Pour vérifier cela, il est nécessaire de comprendre les signes de coprésence dans la bulle : signal sonore indiquant l’entrée effective dans une bulle et apparition des écrans-témoins des interactant·es en bas à droite de l’écran. On observe dans les deux vidéos des moments de malentendus. Par exemple, une participante (ETUC1) voit sur son écran une bulle de conversation englobant son avatar et ceux des trois autres participantes (les étudiantes ETUC2 et ETUC3 et la facilitatrice D1). D1 prend la parole pour poser une question à ETUC3. ETUC1 voit ETUC3 sur son écran mais ne réalise pas qu’elles ne peuvent pas s’entendre parce qu’elles sont dans deux bulles de conversation superposées, mais indépendantes. Dans la figure 10, quatre avatars sont dans la bulle rouge (en haut à gauche) mais seulement trois écrans témoins apparaissent en bas à droite. ETUC3 ne fait pas partie de cet échange. Quand D1 (« Fanny ») demande « jennifer vous m’entendez ? », c’est ETUC1 (« ciel ») qui répond (« oui ») puisqu’elle pense avoir été identifiée comme étant « jennifer » (« c’est moi ? » – « euh oui »). Cet incident se déroule une fois en début de session mais ne se reproduit pas.

**Figure 10.** Malentendu quant à l’identification des interactant·es.

ETUC1 semble avoir intégré l’interprétation des signes lui indiquant si elle est bel et bien en interaction avec l’ensemble du groupe. Cela entraine néanmoins des demandes régulières de confirmation de réception des messages émis, des vérifications intervenant souvent en début de tour de parole ou même « avant le début » (Mondada, 2007). L’échange produit contient des négociations sur le mode de partage, sur les choix de canaux de communication et sur la manière d’interagir avec l’interface. Les interactant·es assurent ainsi une certaine fluidité et maintiennent une « connivence interactionnelle » (Guichon et Tellier, 2017, p.44).

L’objectif de l’expérimentation étant de motiver les interactions entre les participant·es, nous avons imposé aux testeur·ses de rester en groupe et de répondre aux activités des modules en travaillant ensemble. Cette contrainte a donné lieu à une collaboration à différents niveaux. Comme l’illustre la figure 11, les étudiant·es utilisent le partage d’écran et négocient le choix de réponse à une question de type « QCM ».

**Figure 11.** Exemple de collaboration avec partage d’écran 1.

ETUC1 et ETUC2 lisent ensemble des éléments d’information affichés sur l’écran qu’elles partagent et quand ETUC2 déplace le curseur vers sa proposition de réponse, elle demande une confirmation à ETUC1 et ETUC3. ETUC1 approuve.

Les participant·es collaborent également pour interagir avec l’interface :

ETUC2 mais si tu cliques euh dans le_ bouton

ETUC3 oh

ETUC2 tu vas # oui

ETUC1 d’accord # je je clique

Ou encore pour comprendre le mécanisme d’interactivité d’une activité numérique :

Ici, l’exercice consiste à déplacer les pièces d’euros vers le monnayeur à l’aide du curseur, et de récupérer la monnaie rendue puis le billet de métro (dans la vignette, il est écrit « Il ne vous reste plus qu’à régler votre titre de transport. Vous n’avez que de la monnaie. Je vous laisse faire. »).

**Figure 12.** Extrait d’une collaboration avec partage d’écran 2.

La description de l’itinéraire de la pièce est réalisée en dialogue. Les locuteur·rices négocient donc la représentation de ce qui est à l’écran. Ils·elles ont une représentation partagée des objets présents et peuvent les identifier et les nommer dans la langue cible. Ils·elles ont ainsi la capacité de « formuler une procédure » (Denis, 1997, p. 130) pour décrire l’itinéraire des pièces. L’utilisation des déictiques « ici » et « là » par ETUC5 et ETUC6 montre que les interlocuteur·rices sont dans un « espace déictique partagé » (ibid.) présenté via la même perspective, grâce au partage d’écran. Les référents de « ici » et « là » sont a priori stables. Cependant, dans la situation présentée, les locuteur·rices font face à une difficulté technique (la rétroaction attendue n’apparait pas et bloque l’usager·ère). Ici l’échec de la collaboration n’est pas lié à une difficulté d’interprétation de l’environnement mais à un problème technique non perceptible par les interlocutrices d’ETUC4 et donc plus largement à une confusion entre présence réelle et présence virtuelle (Tang, 2016, p. 8). Ce dysfonctionnement entraine un échange tendu entre ETUC4 et son groupe, ses collaboratrices ne comprenant pas pourquoi il est bloqué sur cette activité alors qu’elles ont pu passer à la suivante sans difficulté. Cette situation a nécessité l’intervention de la facilitatrice pour apaiser les échanges et indiquer qu’il s’agit d’un dysfonctionnement ponctuel de l’interactivité et non d’une manipulation erronée d’ETUC4. Nous en retenons qu’il est primordial de faire des tests de ce type auprès du public cible, afin de vérifier le bon fonctionnement des activités interactives et d’assurer une utilisation fluide et efficace des ressources, ainsi que, plus généralement, « l’utilité, l’utilisabilité et l’acceptabilité » (Tricot et al., 2003) du monde R2D. Par ailleurs, il semble que l’accompagnement humain soit également d’une grande utilité lorsqu’on rencontre ce type de difficultés qui génère de la frustration.

Conclusion

Le monde virtuel RENNES2D permet de multiples interactions mobilisant une grande diversité de modalités d’interaction. La méthodologie adoptée dans l’expérimentation décrite en rend compte partiellement et initie une réflexion sur les modalités à privilégier pour assurer une visite fluide du campus virtuel. Le parcours de modules de découverte de la vie étudiante à Rennes a pour objectif de préparer les étudiant·es en mobilité internationale à leur arrivée en les faisant déambuler sur le campus et en leur faisant découvrir les services et les activités des étudiant·es locaux·ales. L’expérimentation révèle cependant les limites de ce parcours, qui offre peu de marge de choix aux participant·es. En effet, dans sa conception actuelle, le parcours impose de suivre l’ensemble des modules dans un ordre prédéfini. Or, les besoins et les attentes en matière d’information varient d’un·e étudiant·e à un·e autre, et compléter l’ensemble des modules n’est pas pertinent pour tous·tes. Ainsi, depuis ce test, le parcours a été modifié et propose à présent une visite libre des lieux et des ressources, sans ordre prédéterminé. Le scénario imposé a laissé place à un cheminement que chaque étudiant·e peut construire selon ses besoins. Les analyses ont également fait apparaitre les limites de l’expérimentation. Nous relevons plusieurs points de vigilance dans le déroulement de l’expérimentation : l’imposition d’interactions entre les participant·es ; la durée des sessions ; la quantité d’informations à interpréter. La collaboration imposée a entrainé des frustrations chez les participant·es. Une autre source de frustration semble provenir de la durée des sessions et de la quantité d’informations à gérer simultanément. Les 45 minutes de « navigation segmentée » entre les interactions avec les autres participant·es, avec les différentes ressources sémiotiques et à l’intérieur des ressources semblent avoir contribué à ce ressenti. Par ailleurs, l’authenticité des interactions sociolangagières est limitée par deux facteurs : les conditions de l’expérimentation ne sont pas les conditions réelles, dans le sens où les étudiant·es sont présent·es dans un lieu physique partagé et non réellement à distance ; la facilitatrice est présente en personne et en ligne, ce qui implique potentiellement une altération de la spontanéité des participant·es. Enfin, pour une analyse plus fine des résultats, il serait nécessaire de disposer d’informations plus précises sur les profils des participant·es. Le but de cette expérimentation est de donner accès à des interactions langagières témoignant de l’expérience des usager·ères dans cet espace virtuel. La présence d’un·e guide disponible tout au long des échanges apparait comme nécessaire pour répondre au besoin d’accompagnement. En effet, lors de propositions de rencontres virtuelles dans ce monde, il semble souhaitable de mettre en place un accompagnement assuré par une personne chargée de faciliter la navigation dans les espaces, les interactions avec les ressources et les échanges verbaux, pour rassurer les interactant·es. Il pourrait s’agir d’une nouvelle forme de tutorat, instaurée avant l’arrivée des EI sur le campus et se poursuivant après leur intégration. Ce guidage virtuel, à la fois technique et orientationnel, pourrait être pris en charge par des étudiant·es locaux·ales à l’instar des dispositifs de parrainage existants (« Buddy système » à l’Université Rennes 2, par exemple ). L’analyse de l’expérimentation présentée ici a donné lieu à une nouvelle expérimentation prenant en compte les limites dévoilées (contraintes du parcours, collaboration, durée, quantité d’information). Un guide virtuel de type agent conversationnel y a été ajouté pour ouvrir la voie à l’analyse de nouvelles modalités d’interaction que les usager·ères seront amené·es à maitriser dans ce monde et dans d’autres contextes, tant pour des objectifs académiques que sociolangagiers. Il sera intéressant d’explorer la complémentarité entre guidage virtuel et guidage humain.

Notes

https://mondevirtuel.univ-rennes2.fr/@/accueil-villejean ↩︎
Projet DEMOEs (Démonstrateurs numériques dans l’enseignement supérieur) AIR (Augmenter les interactions à Rennes) – https://projet-air.univ-rennes.fr/presentation ↩︎
Les outils (plus récents) « Message texte », « Message audio » (envoi d’un message audio préenregistré) et « Mégaphone » (audio « live ») sont réservés aux usager·ères doté·es de droits d’« administrateur ». ↩︎
https://faiia.univ-rennes.fr/en ↩︎

Bibliographie

AIR, projet DEMOES PIA 4 gérée par l’Agence Nationale de la Recherche au titre du programme d’Investissements d’Avenir portant la référence ANR-21-DMES-0001.

Amoyal, M., Cappellini, M., Combe, C., Pallaud, B., Priego-Valverde, B. et Tellier, M. (2022). Multimodalité(s) dans les interactions humaines. TIPA. Travaux interdisciplinaires sur la parole et le langage, 38, Article 38. https://doi.org/10.4000/tipa.5167

Azaoui, B. (2019). Multimodalité, Transmodalité et Intermodalité : considérations épistémologiques et didactiques. Revue de recherches en littératie médiatique multimodale, 10. https://doi.org/10.7202/1065526ar

Barbot, M. (2010). Voyages de formation interculturelle et étonnements. Le Journal des psychologues, 278, 44-48.

Cappellini, M., Holt, B., Bigi, B., Tellier, M. et Zielinski, C. (2023). A multimodal corpus to study videoconference interactions for techno-pedagogical competence in second language acquisition and teacher education. Corpus, 24, Article 24. https://doi.org/10.4000/corpus.7440

Carras, C. et Perret, A.-C. (2021, avril). Entre transversalité et massivité, comment définir les contenus d’un MOOC en Français sur Objectif Universitaire ? MOOCs, Language learning and mobility, design, integration, reuse. https://hal.science/hal-03203817

Collard, A.-S. (2012). Apprendre dans un monde virtuel: Quel est le rôle d’une métaphore globale dans la compréhension d’informations ? Document numérique, 15(3), 71-93.

Danos, F. et Grassin, J. F. (2024). Étudier la socialisation langagière des étudiant·e·s internationaux·ales par des ateliers cartographiques. Recherches en didactique des langues et des cultures. Les cahiers de l’Acedle, 1(22-1), Article 22-1. https://doi.org/10.4000/11q9s

Denis, M. et Briffault, X. (1997). Les aides verbales à la navigation. Dans M. Denis (Ed.), Langage et cognition spatiale (p. 127-154). Paris : Masson.

Develotte, C. et Paveau, M.-A. (2017). Pratiques discursives et interactionnelles en contexte numérique. Questionnements linguistiques. Langage et société, 160-161(2-3), 199-215. https://doi.org/10.3917/ls.160.0199

Fischler, M. A. et Bolles, R. C. (1981). Random sample consensus: A paradigm for model fitting with applications to image analysis and automated cartography. Commun. ACM, 24(6), 381-395. https://doi.org/10.1145/358669.358692

Guichon, N. et Tellier, M. (2017). Enseigner à l’oral en ligne : Une approche multimodale des interactions pédagogiques.

Guichon, N., Thiburce, J., Lascar, J. et Doulfaquar, S. (2022). Concevoir des parcours immersifs en français langue seconde pour préparer les étudiants étrangers à la mobilité. Alsic. Apprentissage des Langues et Systèmes d’Information et de Communication. https://journals.openedition.org/alsic/6319

Habel, Ch. (1997). Discours et représentations spatiales dans la description de plans. Dans M. Denis, Langage et cognition spatiale (p. 103-126). Masson.

Hervé-Pécot, F., Ramella, D. et Richard, É. (2024). De l’EIAH à l’escape game pédagogique en ligne : Une pratique numérique qui favorise les interactions en langues. Alsic. Apprentissage des Langues et Systèmes d’Information et de Communication. https://journals.openedition.org/alsic/7565

Kerbrat-Orecchioni, C. (2011). 8. Conversations en présentiel et conversations en ligne : Bilan comparatif. Dans C. Develotte, R. Kern et M.-N. Lamy (Éds.), Décrire la conversation en ligne : Le face à face distanciel (p. 173-195). ENS Éditions. https://doi.org/10.4000/books.enseditions.31603

Lang, É. et Beillet, M. (2023). Approche réflexive de la conception modulaire en Français sur Objectifs Universitaires et en littéracies universitaires. Recherches en didactique des langues et des cultures. Les cahiers de l’Acedle, 21(2). https://doi.org/10.4000/rdlc.12536

Leroux, A. et Manoïlov, P. (2023). Constituer et analyser un corpus d’interactions orales en classe de langue : D’un objectif à l’autre. Presses Universitaires de Rennes. https://hal.parisnanterre.fr/hal-04328811

Lowe, D. G. (1999). Object recognition from local scale-invariant features. Proceedings of the Seventh IEEE International Conference on Computer Vision, 2, 1150-1157. https://doi.org/10.1109/ICCV.1999.790410

Mangiante, J.-M., Parpette, C. (2011). Le français sur objectifs universitaires. Presses Universitaires de Grenoble.

Mondada, L. (2007). Imbrications de la technologie et de l’ordre interactionnel : L’organisation de vérifications et d’identifications de problèmes pendant la visioconférence. Réseaux, 144(5), 141-182. https://doi.org/10.3917/res.144.0141

Ollivier, C. (2018). Littératie numérique et approche socio-interactionnelle pour l’enseignement-apprentissage des langues. 102.

Privas-Bréauté, V. (2016). Les mondes virtuels : Des dispositifs de création innovants pour développer les compétences générales et langagières ? Études en didactique des langues, 27, 43.

Prunet, A., Rousseau-Gadet, E. et Salam, P. L. (2020). ENVOL : Une plate-forme collaborative en réseau au service de la conception de modules de formation en FOU. Travaux de didactique du français langue étrangère, 77.

Puren, C. et Davanture, A. (2022). FRANMOBE, un programme original d’apprentissage du français dans le cadre de la construction de projets de mobilité étudiante. Journal of international Mobility, 10(1), 163-186. https://doi.org/10.3917/jim.010.0163

Ravi, N., Gabeur, V., Hu, Y.-T., Hu, R., Ryali, C., Ma, T., Khedr, H., Rädle, R., Rolland, C., Gustafson, L., Mintun, E., Pan, J., Alwala, K. V., Carion, N., Wu, C.-Y., Girshick, R., Dollár, P. et Feichtenhofer, C. (2024). SAM 2 : Segment Anything in Images and Videos. arXiv:2408.00714. https://doi.org/10.48550/arXiv.2408.00714

Soubrié, T. et Zourou, K. (2011). Gérer l’espace-temps de la formation en ligne : Différentes manières de conférer une intelligibilité propre à la réalité d’une formation. Dans E. Nissen et F. Poyer (Éds.), Interagir et apprendre en ligne (p. 223-240). UGA Éditions. https://doi.org/10.4000/books.ugaeditions.1213

Tang, W. (2016). Action et langage dans un monde virtuel utilisé à des fins de pratique de la langue | Action and Language in a Virtual World Used for Language Practice. Canadian Journal of Learning and Technology/La Revue canadienne de l’apprentissage et de La Technologie, 42(4). https://www.learntechlib.org/p/180690/

Tricot, A. (1993). Stratégies de navigation et stratégies d’apprentissage : Pour l’approche expérimentale d’un problème cognitif. 21. https://edutice.hal.science/edutice-00000088

Tricot, A., Plégat-Soutjis, F., Camps, J.-F., Amiel, A., Lutz, G. et Morcillo, A. (2003). Utilité, utilisabilité, acceptabilité : Interpréter les relations entre trois dimensions de l’évaluation des EIAH. 391. https://edutice.hal.science/edutice-00000154

Autres articles

Tout voir