Détection automatique de l'ironie
Application à la fouille d'opinion dans les microblogs et les médias sociaux
Jihen Karoui
Farah Benamara
Véronique Moriceau
iSTE
Avant-propos1
Introduction3
Chapitre 1. De l'analyse d'opinion au traitement du langage figuratif9
1.1. Introduction9
1.2. Définition de la notion d'opinion10
1.2.1. Multiples facettes de l'opinion10
1.2.2. L'opinion vue comme un modèle structuré11
1.2.3. Extraction d'opinions : principales approches12
1.3. Limites des systèmes d'analyse d'opinion16
1.3.1. Opérateurs d'opinion16
1.3.2. Dépendance au domaine17
1.3.3. Opinion implicite17
1.3.4. Opinion et contexte discursif au-delà de la phrase18
1.3.5. Présence d'expressions figuratives19
1.4. Définition du langage figuratif19
1.4.1. Ironie20
1.4.1.1. Ironie verbale21
1.4.1.2. Ironie de situation24
1.4.2. Sarcasme25
1.4.3. Satire26
1.4.4. Métaphore27
1.4.5. Humour28
1.5. Traitement automatique du langage figuratif : un défi pour le TAL28
1.6. Conclusion29
Chapitre 2. Vers la détection automatique du langage figuratif31
2.1. Introduction31
2.2. Principaux corpus existants pour le langage figuratif33
2.2.1. Corpus annotés en ironie/sarcasme34
2.2.1.1. Senti-TUT : corpus de tweets en italien34
2.2.1.2. Corpus de tweets en anglais et néerlandais36
2.2.2. Corpus annotés en métaphore38
2.2.2.1. Collecte du corpus38
2.2.2.2. Schéma d'annotation39
2.2.2.3. Résultats de la campagne d'annotation40
2.3. Détection automatique de l'ironie, du sarcasme et de la satire41
2.3.1. Approches surfaciques et sémantiques41
2.3.2. Approches pragmatiques43
2.3.2.1. Approches pragmatiques exploitant le contexte interne de l'énoncé43
2.3.2.2. Approches pragmatiques exploitant le contexte externe de l'énoncé53
2.4. Détection automatique de la métaphore55
2.4.1. Approches surfaciques et sémantiques55
2.4.2. Approches pragmatiques57
2.4.2.1. Approches pragmatiques exploitant le contexte interne de l'énoncé57
2.4.2.2. Approches pragmatiques exploitant le contexte externe de l'énoncé59
2.5. Détection automatique de la comparaison61
2.6. Détection automatique de l'humour62
2.7. Conclusion64
Chapitre 3. Un schéma multiniveau pour l'annotation de l'ironie dans les réseaux sociaux67
3.1. Introduction67
3.2. Corpus FrIC69
3.3. Schéma d'annotation multiniveau70
3.3.1. Méthodologie70
3.3.2. Schéma d'annotation73
3.3.2.1. Niveau 1 : classes du tweet73
3.3.2.2. Niveau 2 : types de l'ironie74
3.3.2.3. Niveau 3 : catégories de l'ironie76
3.3.2.4. Niveau 4 : marqueurs linguistiques de l'ironie80
3.4. Campagne d'annotation81
3.4.1. Présentation de l'outil Glozz81
3.4.2. Préparation des données83
3.4.3. Procédure d'annotation84
3.5. Résultats de la campagne d'annotation85
3.5.1. Résultats qualitatifs86
3.5.2. Résultats quantitatifs86
3.5.2.1. Fréquences des tweets selon les classes87
3.5.2.2. Fréquences des tweets selon le type de l'ironie87
3.5.2.3. Fréquences des tweets selon les catégories de l'ironie88
3.5.2.4. Fréquences des tweets selon les indices linguistiques89
3.5.2.5. Fréquences des relations dans les tweets ironiques avec contradiction explicite92
3.5.3. Corrélation entre les différents niveaux du schéma d'annotation92
3.5.3.1. Corrélation entre le type et les indices de l'ironie93
3.5.3.2. Corrélation entre l'activation et les indices de l'ironie93
3.5.3.3. Corrélation entre les différents indices de l'ironie94
3.5.3.4. Corrélation entre les catégories et les indices de l'ironie94
3.6. Conclusion94
Chapitre 4. Trois modèles pour la détection automatique de l'ironie97
4.1. Introduction97
4.2. Corpus FrICAuto98
4.3. Modèle SurfSystem : détection de l'ironie sur la base de traits surfaciques101
4.3.1. Traits utilisés101
4.3.2. Expériences et résultats102
4.4. Modèle PragSystem : détection de l'ironie sur la base de traits contextuels internes104
4.4.1. Traits utilisés105
4.4.1.1. Traits de surface105
4.4.1.2. Traits de sentiment105
4.4.1.3. Traits pour les modifieurs106
4.4.1.4. Traits pour les modifieurs de sentiment107
4.4.1.5. Traits de contexte107
4.4.1.6. Traits d'opposition107
4.4.2. Expériences et résultats108
4.4.2.1. Étude de pertinence de traits au processus d'apprentissage109
4.4.2.2. Apport de chaque groupe de traits au processus d'apprentissage109
4.4.2.3. Résultats pour les meilleures combinaisons de traits109
4.4.3. Discussion115
4.5. Modèle QuerySystem : vers un modèle pragmatique contextuel pour la détection automatique de l'ironie117
4.5.1. Approche proposée117
4.5.2. Expériences et résultats120
4.5.3. Évaluation de la méthode à base de requêtes121
4.6. Conclusion122
Chapitre 5. Vers un système multilingue pour la détection automatique de l'ironie125
5.1. Introduction125
5.2. Ironie dans les langues indo-européennes126
5.2.1. Corpus126
5.2.1.1. Collecte du corpus anglais126
5.2.1.2. Collecte du corpus italien127
5.2.2. Résultats de la procédure d'annotation128
5.2.2.1. Résultats quantitatifs de la procédure d'annotation en ironique/non ironique130
5.2.2.2. Résultats quantitatifs de la procédure d'annotation sur les types de l'ironie130
5.2.2.3. Résultats quantitatifs de la procédure d'annotation sur les catégories de l'ironie131
5.2.2.4. Résultats quantitatifs de la procédure d'annotation pour les indices de l'ironie132
5.2.2.5. Résultats quantitatifs de la procédure d'annotation des relations de contradiction135
5.2.2.6. Corrélation entre les différents niveaux du schéma d'annotation135
5.2.3. Synthèse137
5.3. Ironie dans les langues sémitiques137
5.3.1. Spécificités de la langue arabe139
5.3.2. Corpus et ressources140
5.3.2.1. Collecte du premier corpus arabe pour l'ironie140
5.3.2.2. Ressources linguistiques142
5.3.3. Détection automatique de l'ironie dans les tweets arabes143
5.3.3.1. Traits utilisés pour la détection de l'ironie143
5.3.3.2. Expériences et résultats143
5.3.3.3. Discussion144
5.4. Conclusion146
Conclusion147
Annexe. Catégories de l'ironie étudiées dans la littérature linguistique151
Bibliographie163
Index179