• Aide
  • Eurêkoi Eurêkoi

Article

Corpus complexes et standards : un retour sur le projet CoMeRe

dans Bases ; corpus et langage - UMR 6039


  • Éditeur(s)
  • Date
    • 2020-01-28T01:00:00Z
  • Notes
    • Le présent article se propose de revenir sur le projet national CoMeRe (Communication Médiée par les Réseaux) en insistant sur la complexité du corpus développé. Constitué de quatorze sous-corpus variés, le corpus CoMeRe est un corpus de référence de la communication médiée par les réseaux en français. Quatorze enseignants-chercheurs de huit laboratoires différents se sont impliqués dans le projet et ont été guidés par trois mots clés lors de leurs collaborations : variété, standards et accès ouvert.Le corpus CoMeRe a ainsi été construit sur une hypothèse de variété et contient une gamme étendue d’interactions de la CMR dont nous restituons les différences et les caractéristiques principales (courriels, clavardage, SMS, forums de discussion Internet, blogs, tweets, discussions Wikipédia, interactions provenant de mondes synthétiques). Nous détaillons ensuite comme le corpus CoMeRe a été rendu interopérable : les quatorze sous-corpus ont été standardisés, suivant le modèle de l’espace d’interaction élaboré lors du projet (Chanier & Jin, 2013) d’une part et suivant les propositions de représentation standardisée des corpus de la CMR en TEI (Text Encoding Initiative, 2019) élaborées en lien avec les partenaires européens. Enfin, les collègues tenaient à diffuser le corpus en accès ouvert pour permettre son utilisation par la communauté scientifique. Nous revenons sur les retombées du projet liées à la diffusion du corpus dans la conclusion de notre article.
  • Sujet(s)
  • Droits
    • info:eu-repo/semantics/openAccess .
    • All rights reserved
  • Résultat de :