• Aide
  • Eurêkoi Eurêkoi


  • Éditeur(s)
  • Date
    • 2023-01-27T01:00:00Z
  • Notes
    • La linguistique de corpus, c’est à dire les recherches sur le langage portant sur un matériel linguistique écrit ou oral recueilli et conservé, s’est considérablement développée au cours des dernières décennies. Ce développement s’est fait à l’aide de corpus constitués de plus en plus nombreux et de plus en plus importants. L’augmentation de la taille des corpus a nécessité, pour leur analyse, le développement d’outils automatiques, mais aussi une vraie réflexion sur la nature et les objectifs de l’annotation des corpus. L’enrichissement de corpus par un jeu d’annotations spécifiques est alors apparu, la plupart du temps, comme un préalable à toutes analyses linguistiques.Annoter un corpus consiste à ajouter des informations pertinentes pour son exploitation. L’intérêt de disposer de corpus annotés, c’est-à-dire enrichis à différents niveaux linguistiques, est de pouvoir étudier chacun de ces derniers ainsi que les liens mutuels entre les uns et les autres. Les travaux menés au LPL sur ces questions d’enrichissement des corpus ont été effectués initialement pour rendre possible l’étude de la multimodalité, à savoir la prise en compte des niveaux de granularité les plus fins (phonèmes) jusqu’aux niveaux mimo-gestuels, en passant par les niveaux syntaxique, discursif, prosodique, et interactionnel. Il s’est donc avéré nécessaire de penser l’annotation en amont, au niveau même de la représentation des informations. Un schéma d’annotation global permet en effet de considérer tous ces niveaux dans une seule et même approche formelle qui favorise leur interrogation ultérieure.Quel que soit le niveau d’annotation, plusieurs questions se sont posées : d’une part, celle des étiquettes utilisées (décomposition, typologie, fonction, nature graduelle/catégorielle, etc.) ; d’autre part, celle de l’ancrage temporel de ces étiquettes (localisation et frontières). Pour certains niveaux d’annotation il sera question de décrire les niveaux de dépendance entre les différentes étiquettes. Ces questions doivent être pensées en fonction des objectifs de recherche. Le travail au sein de chaque niveau d’annotation est ensuite relativement similaire. Il s’agit d’établir un schéma d’annotation permettant une annotation la plus constante et la plus robuste possible. Ce schéma est établi sur la base des connaissances théoriques et en vue de répondre aux questionnements des recherches. Une fois le schéma d’annotation établi, il est également possible de construire un guide d’annotation destiné à de potentiels annotateurs (experts / naïfs). Le plus souvent, les annotations sont effectuées en recourant à plusieurs annotateurs afin de rendre possible une évaluation de la consistance (accords inter-annotateurs). La question transversale de l’hétérogénéité des annotations humaines sera traitée dans ce chapitre.Dans ce chapitre, nous développons quelques-unes des principales étapes d’enrichissement qui ont été mises en œuvre pour annoter manuellement ou automatiquement les corpus, ainsi que les problématiques de recherche qui leur sont associées. Ces étapes sont listées ci-après : - Recherche automatique des IPUs et transcription orthographiqueÀ partir des données primaires collectées, sont recherchées automatiquement les IPUs - Inter-Pausal Units, qui nous permettent d’obtenir une segmentation en blocs de silences versus blocs sonores. Nous effectuons ensuite la transcription orthographique au sein de ces IPUs. Cette étape de transcription est cruciale dans la mesure où elle constitue la ligne (tier) sur laquelle se développeront les autres niveaux d’annotation. Là encore les choix effectués en termes de transcription (convention choisie) ont une incidence sur la mise en lien des niveaux d’annotation. Une fois la transcription orthographique effectuée - et alignée sur le signal au niveau des IPUs, de nombreuses annotations peuvent être obtenues, soit manuellement, soit automatiquement, soit semi-automatiquement. - Annotation phonétique et lexicaleNous développons, distribuons et enrichissons régulièrement un logiciel d’annotation automatique -SPPAS, qui permet notamment de normaliser le texte transcrit, c’est à dire d’obtenir les tokens. À partir de ces tokens au sein des IPUs, SPPAS peut effectuer la conversion graphèmes-phonèmes sous la forme d’une grammaire des prononciations possibles de chaque IPU. Enfin, SPPAS fournit l’alignement temporel des phonèmes qui, désormais, est rarement réalisée manuellement. Toutefois, les aspects manuels et automatiques de l’annotation phonétique relèvent de processus différents mais complémentaires. Ainsi, la parole spontanée engendre des réalisations phonétiques (réductions) difficilement gérables au niveau de l’alignement automatique. En conséquence 1/ il peut être nécessaire de corriger manuellement certaines parties de l’alignement automatique : 2/ il est possible d’utiliser les erreurs d’alignement pour localiser ces réalisations phonétiques spécifiques. Nous aborderons dans ce chapitre les questions liées à ces deux aspects. D’autres annotations peuvent ensuite être obtenues de cette segmentation en phonèmes. Notamment, ils permettent d’obtenir automatiquement l’alignement des tokens ; un système à base de règles permet de regrouper les phonèmes en syllabes. - Annotation syntaxiqueL’annotation syntaxique vient s’ancrer sur les tokens. S’il existe des analyseurs syntaxiques automatiques disponibles pour l’écrit, l’analyse syntaxique du français parlé reste encore un défi. Nous présentons ici la méthodologie que nous avons adoptée pour adapter notre étiqueteur de l’écrit afin de traiter les transcriptions de l’oral spontané. Si les performances de notre étiqueteur MarsaTag sont d’ores et déjà acceptables, l’amélioration de notre outil nécessitera une modélisation multi-niveaux incluant les phénomènes de disfluences (voir ci-dessous) et le traitement plus précis des marqueurs de discours. - Annotation des disfluencesLes énoncés oraux comportent de nombreuses variations de la fluence verbale et, cela, à plusieurs niveaux (par exemple, le débit de prononciation des mots, des syntagmes ou des propositions). Mais ces variations peuvent se manifester également aux niveaux acoustiques et phonétiques. Sur les plans morphologiques et syntaxiques, certaines de ces variations se traduisent par de véritables auto interruptions qui suspendent le déroulement syntagmatique dans l’émission verbale. Nos analyses de corpus ont prévu de conserver (en plus des pauses remplies ou non, éléments discursifs, interjections) les traces d’élaboration des énoncés que sont, entre autres, les amorces ou fragments de mots et les ruptures de syntagme. Cette stratégie a permis d’envisager une description fine et exhaustive de ces phénomènes désignés sous le terme de disfluence. - Annotation du discours et des interactionsÀ partir du signal de parole et de sa transcription, il est également possible d’envisager une annotation de plusieurs niveaux pragmatiques tels que l’organisation thématique d’interactions conversationnelles. Plusieurs niveaux d’annotations seront donc décrits dans ce chapitre : l’annotation des thèmes conversationnels, des transitions thématiques (i.e. les mouvements conversationnels qui permettent de passer d’un sujet à un autre), ainsi que les phases de ces transitions. D’autres phénomènes seront également décrits, tels que les items de feedbacks et les séquences humoristiques. Nous présenterons le protocole d’annotation associé à ces différents phénomènes ainsi que les méthodes d’évaluation choisies pour évaluer la fiabilité de ces annotations. - Annotation mimogestuelles À partir du signal vidéo, il est possible d’envisager une annotation mimo-gestuelle (les expressions faciales ou les gestes manuels coverbaux par exemple). Cela peut se faire soit de façon manuelle soit semi-automatisée. Nous présenterons dans ce chapitre le protocole d’annotation semi-automatique des sourires que nous avons élaboré afin d’annoter deux corpus conversationnels. Tout d’abord, nous présenterons l’outil SMAD qui permet d’annoter automatiquement les sourires. Puis nous exposerons, le protocole de correction de ces annotations. Enfin nous décrirons la méthode d’évaluation choisie afin d’évaluer la robustesse des données annotées. Nous évoquerons également l’annotation manuelle des gestes coverbaux ainsi que les problématiques méthodologiques inhérentes telles que les schémas et guide d’annotation, les typologies et la segmentation. Nous donnerons des exemples d’études réalisées au LPL qui proposent différentes approches pour l’annotation des gestes.
  • Langues
    • Français
  • Sujet(s)
  • Droits
    • info:eu-repo/semantics/openAccess .
    • https://creativecommons.org/licenses/by-nc-nd/4.0/
  • Résultat de :