Analyse de sentiment avec les Transformers : de la méthode naïve à Camembert

 3 min read

YouTube video ID: iJSq25_o9dE

Source: YouTube video by Med Nadjib ZennirWatch original video

PDF

Introduction

Dans cette vidéo, l’auteur montre comment extraire des titres d’articles, les stocker dans une liste et appliquer une analyse de sentiment pour déterminer si chaque titre est positif ou négatif. Il passe en revue plusieurs approches, de la méthode naïve Bayes aux modèles de deep learning basés sur les Transformers, avant de mettre en pratique le modèle français Camembert.

Collecte des données

  • Les titres sont récupérés et stockés dans la liste titles.
  • Chaque titre représente un nœud contenant les mots‑clés recherchés (ex. "vaccin").
  • Cette liste constitue la base de travail pour l’analyse.

Analyse de sentiment : méthodes classiques

  • Naïve Bayes : approche probabiliste qui associe chaque mot à une probabilité d’appartenance à la classe "bonne" ou "mauvaise".
  • Le produit des probabilités de tous les mots du titre donne la probabilité globale du titre pour chaque classe.
  • Nécessite un grand corpus d’apprentissage pour estimer correctement les probabilités.

Naïve Bayes expliqué

  • Exemple de mots : "bon" → 98 % bonne nouvelle, 2 % mauvaise ; "décès" → 20 % bonne, 80 % mauvaise.
  • Pour le titre "Le grand chanteur", on multiplie les probabilités de chaque mot pour obtenir la probabilité totale.
  • La classe avec la probabilité la plus élevée détermine le sentiment du titre.

Réseaux de neurones classiques

  • Introduits comme alternatives plus puissantes, ils utilisent la rétropropagation, la minimisation d’erreur, etc.
  • Nécessitent un jeu de données d’entraînement et plusieurs couches ("feuilles") pour capturer des relations complexes.

Deep Learning et Transformers

  • Les Transformers (ex. BERT, Camembert) sont des réseaux très profonds avec des mécanismes d’attention qui permettent de traiter le langage de façon très fine.
  • Ils évitent les problèmes d’explosion du gradient et offrent des performances de pointe en classification de texte.

Utilisation du modèle Camembert

  • Camembert est la version française de BERT, pré‑entraînée par des chercheurs français sur des millions de commentaires du site Allociné.
  • Le modèle a déjà été fine‑tuned pour la classification sentimentale (positif/negatif).
  • Aucun entraînement supplémentaire n’est nécessaire : on télécharge le modèle et on l’applique directement.

Installation des bibliothèques

  1. pip install tensorflow (ou tf-nightly) pour le framework de deep learning de Google.
  2. pip install transformers pour accéder aux modèles de type BERT/Camembert.
  3. Importation du modèle et du tokenizer depuis la bibliothèque transformers.

Exemple d’application

  • Quatre commentaires d’Allociné sont analysés :
  • "Aladin clairement le meilleur film de l'année 2018" → positif (96 %).
  • "Waouh c’est…" → positif (98 %).
  • "Al LP nul…" → négatif (99 %).
  • "Je m’entendais…" → négatif (89 %).
  • Le script parcourt chaque titre, applique le modèle Camembert et affiche la classe avec la probabilité associée.

Limites et perspectives

  • Analyser uniquement le titre peut conduire à des résultats ambigus ; le texte complet fournirait plus de contexte et améliorerait la précision.
  • Les modèles pré‑entraînés sont coûteux à créer : ils sont le fruit de semaines de calcul sur des clusters massifs, ce qui rend leur réutilisation très avantageuse.
  • Future amélioration : fine‑tuning sur un domaine spécifique (ex. santé, finance) pour affiner la sensibilité du modèle.

Conclusion

L’utilisation d’un modèle Transformer pré‑entraîné comme Camembert permet d’effectuer rapidement une analyse de sentiment fiable, même avec peu de code. Bien que la méthode naïve Bayes reste pédagogique, les Transformers offrent une précision nettement supérieure, surtout lorsqu’on travaille avec des textes plus longs et plus nuancés.

Les Transformers, et notamment le modèle français Camembert, rendent l’analyse de sentiment à la fois simple à implémenter et très performante, surpassant largement les approches classiques comme le Naïve Bayes.

Frequently Asked Questions

Who is Med Nadjib Zennir on YouTube?

Med Nadjib Zennir is a YouTube channel that publishes videos on a range of topics. Browse more summaries from this channel below.

Does this page include the full transcript of the video?

Yes, the full transcript for this video is available on this page. Click 'Show transcript' in the sidebar to read it.

Helpful resources related to this video

If you want to practice or explore the concepts discussed in the video, these commonly used tools may help.

Links may be affiliate links. We only include resources that are genuinely relevant to the topic.

PDF