• Aide
  • Eurêkoi Eurêkoi

Article

Analyse lexicale d’une page web

dans Société Française de Sciences de l’Information et de la Communication


  • Éditeur(s)
  • Date
    • 2022-03-25T01:00:00Z
  • Notes
    • Dans ce data paper, nous décrivons les données produites par une série d’outils adaptables1 construits pour retrouver les mots employés dans une page d’un site web. Pour dépasser à terme les techniques de référencement actuelles, l’objectif est de disposer d’un instrument capable de réduire les contenus textuels d’une page web, expurgée des balises HTML et codes informatiques, en un lexique afin de pouvoir saisir le sens global porté par la page. Pour apporter une finesse sémantique, le lexique est lemmatisé et séparé selon les catégories grammaticales (verbe : actions, nom : champ nominal, adjectifs et adverbes : intensité, temporalité, etc.). Les ensembles de données obtenues sont alors combinés pour être représentés en nuages de mots paramétrables afin d’accompagner une lecture distante. Les données collectées dans l’environnement web du Parc National de Port-Cros, sont agrégées selon une typologie de sites. Les traitements et représentations montrent l’intérêt et la pertinence de cette instrumentation pour comparer les lexiques véhiculés par des pages. La sauvegarde de ces extractions ainsi que toute la chaîne de production est d’intérêt autant pour des travaux en continuité que pour les reproduire dans un cadre pédagogique. Les forces et limites sont discutées pour cadrer l’extension de ce procédé à d’autres domaines et applications à la communication web en général.
  • Langues
    • Français
  • Sujet(s)
  • Droits
    • info:eu-repo/semantics/openAccess .
    • https://creativecommons.org/licenses/by-nc-sa/4.0/
  • Résultat de :