Glossaire
Définitions complètes des termes clés de l'intelligence artificielle
Un glossaire complet des termes essentiels en intelligence artificielle, machine learning et deep learning.
Ce glossaire contient 80+ définitions organisées alphabétiquement. Utilisez Ctrl+F pour rechercher un terme spécifique.
A
Accuracy (Précision globale) : Proportion de prédictions correctes sur l'ensemble des prédictions. Métrique de base pour évaluer un modèle de classification.
Activation (Fonction d') : Fonction mathématique appliquée à la sortie d'un neurone (ReLU, Sigmoid, Tanh) pour introduire de la non-linéarité.
Agent IA : Système autonome combinant un LLM avec des outils externes pour accomplir des tâches complexes via une boucle de raisonnement-action.
Algorithme : Suite d'instructions permettant de résoudre un problème ou d'effectuer une tâche de manière déterministe.
Alignement : Processus visant à faire en sorte que le comportement d'une IA soit conforme aux intentions et valeurs humaines.
Annotation : Processus d'étiquetage manuel des données pour créer des jeux de données supervisés.
API (Application Programming Interface) : Interface permettant d'interagir avec un modèle ou service via des requêtes programmatiques.
Apprentissage automatique : Voir Machine Learning.
Apprentissage non supervisé : Méthode où le modèle apprend des patterns sans labels (ex: clustering, réduction de dimensionnalité).
Apprentissage par renforcement (RL) : Paradigme où un agent apprend par essai-erreur en maximisant une récompense cumulative.
Apprentissage supervisé : Méthode où le modèle apprend à partir de données étiquetées (paires entrée-sortie).
Attention (Mécanisme d') : Technique permettant à un modèle de pondérer l'importance relative des différentes parties de l'entrée.
Autoencoder : Réseau de neurones qui apprend à compresser puis reconstruire ses entrées, utile pour la réduction de dimensionnalité.
B
Backpropagation : Algorithme de calcul du gradient utilisé pour entraîner les réseaux de neurones par propagation arrière de l'erreur.
Batch : Groupe d'échantillons traités simultanément pendant l'entraînement pour optimiser les calculs.
Batch Normalization : Technique de normalisation des activations entre couches pour stabiliser et accélérer l'entraînement.
BERT : Modèle de langage bidirectionnel de Google (2018), pionnier du pré-entraînement pour le NLP.
Biais : Erreur systématique dans les prédictions d'un modèle, souvent due aux données d'entraînement ou à la conception du modèle.
Biais-Variance (Compromis) : Équilibre entre erreur due à des hypothèses simplificatrices (biais) et sensibilité aux variations des données (variance).
C
Chain-of-Thought (CoT) : Technique de prompting incitant le modèle à détailler son raisonnement étape par étape.
Chatbot : Agent conversationnel utilisant le NLP pour dialoguer avec les utilisateurs.
Chunking : Division d'un document en segments pour le traitement par un LLM ou l'indexation dans un système RAG.
Classification : Tâche consistant à attribuer une catégorie prédéfinie à une entrée.
Claude : Famille de LLM développés par Anthropic, connus pour leur sécurité et leurs capacités de raisonnement.
Clustering : Regroupement automatique de données similaires sans labels prédéfinis (ex: K-Means, DBSCAN).
CNN (Convolutional Neural Network) : Réseau de neurones spécialisé dans le traitement d'images utilisant des filtres de convolution.
Contexte (Fenêtre de) : Nombre maximum de tokens qu'un LLM peut traiter en une seule fois (ex: 128K pour GPT-4, 200K pour Claude 3).
Cross-Entropy : Fonction de perte couramment utilisée pour les tâches de classification.
CUDA : Plateforme de calcul parallèle de NVIDIA pour l'entraînement sur GPU.
D
Data Augmentation : Techniques pour augmenter artificiellement la taille d'un jeu de données (rotations, flips, bruit...).
Dataset : Jeu de données utilisé pour entraîner, valider ou tester un modèle.
Deep Learning : Sous-domaine du Machine Learning utilisant des réseaux de neurones profonds (plusieurs couches).
Diffusion (Modèle de) : Architecture générative apprenant à débruiter progressivement du bruit pour générer des images (Stable Diffusion, DALL-E).
Distillation : Technique de compression où un petit modèle (élève) apprend à imiter un grand modèle (professeur).
Dropout : Technique de régularisation désactivant aléatoirement des neurones pendant l'entraînement pour éviter le surapprentissage.
E
Edge AI : Déploiement de modèles d'IA directement sur des appareils locaux (smartphones, IoT) plutôt que dans le cloud.
Embedding : Représentation vectorielle dense d'une donnée (texte, image, utilisateur) dans un espace de dimension réduite.
Epoch : Passage complet sur l'ensemble du jeu de données d'entraînement.
Éthique de l'IA : Domaine étudiant les implications morales et sociétales de l'intelligence artificielle.
F
F1-Score : Moyenne harmonique de la précision et du rappel, utile pour les jeux de données déséquilibrés.
Feature : Caractéristique ou attribut d'une donnée utilisé comme entrée du modèle.
Feature Engineering : Processus de création et sélection de features pertinentes à partir des données brutes.
Feedforward (Réseau) : Architecture de réseau de neurones où l'information circule uniquement vers l'avant.
Few-Shot Learning : Capacité à apprendre une tâche à partir de très peu d'exemples fournis dans le prompt.
Fine-tuning : Ajustement des poids d'un modèle pré-entraîné sur un jeu de données spécifique à une tâche.
Foundation Model : Grand modèle pré-entraîné servant de base pour diverses applications (GPT, BERT, LLaMA).
Function Calling : Capacité d'un LLM à générer des appels de fonctions structurés pour interagir avec des outils externes.
G
GAN (Generative Adversarial Network) : Architecture où deux réseaux (générateur et discriminateur) s'affrontent pour générer du contenu réaliste.
Gemini : Famille de modèles multimodaux de Google DeepMind.
Génération de texte : Tâche de production de texte nouveau et cohérent à partir d'un contexte.
GPT (Generative Pre-trained Transformer) : Famille de LLM d'OpenAI basés sur l'architecture Transformer decoder-only.
GPU (Graphics Processing Unit) : Processeur graphique massivement parallèle utilisé pour accélérer l'entraînement des modèles.
Gradient : Vecteur de dérivées partielles indiquant la direction de plus forte pente de la fonction de perte.
Gradient Descent : Algorithme d'optimisation itératif minimisant la fonction de perte en suivant le gradient négatif.
Guardrails : Mécanismes de sécurité limitant les comportements indésirables d'un modèle.
H
Hallucination : Génération de contenu faux, inventé ou incohérent par un modèle de langage, présenté avec confiance.
Hugging Face : Plateforme et bibliothèque open source pour les modèles de NLP et ML.
Hyperparamètre : Paramètre de configuration du modèle ou de l'entraînement (learning rate, batch size, nombre de couches).
I
IA Générative : Branche de l'IA capable de créer du nouveau contenu (texte, images, audio, vidéo, code).
IA Symbolique : Approche historique de l'IA basée sur des règles logiques et des représentations explicites des connaissances.
ImageNet : Dataset de référence de 14 millions d'images pour la vision par ordinateur.
Inférence : Utilisation d'un modèle entraîné pour faire des prédictions sur de nouvelles données.
Instruction Tuning : Fine-tuning d'un LLM pour mieux suivre les instructions en langage naturel.
J
Jailbreak : Technique visant à contourner les garde-fous de sécurité d'un modèle de langage.
K
Knowledge Distillation : Voir Distillation.
K-Means : Algorithme de clustering partitionnant les données en K groupes par proximité au centroïde.
L
Label : Étiquette ou annotation associée à une donnée d'entraînement supervisé.
LangChain : Framework Python pour construire des applications avec des LLM (chaînes, agents, RAG).
Latent Space : Espace de représentation compressée appris par un modèle (encodeur, VAE, diffusion).
Learning Rate : Hyperparamètre contrôlant l'amplitude des mises à jour des poids pendant l'entraînement.
LLaMA : Famille de LLM open source développés par Meta.
LLM (Large Language Model) : Grand modèle de langage entraîné sur d'immenses corpus de texte pour prédire le token suivant.
LoRA (Low-Rank Adaptation) : Technique de fine-tuning efficiente ajoutant de petites matrices adaptatives aux poids gelés.
Loss (Fonction de perte) : Fonction mesurant l'écart entre les prédictions du modèle et les valeurs réelles.
LSTM (Long Short-Term Memory) : Architecture RNN avec des portes permettant de capturer les dépendances à long terme.
M
Machine Learning (ML) : Discipline permettant aux systèmes d'apprendre et de s'améliorer à partir de données sans programmation explicite.
MCP (Model Context Protocol) : Protocole standardisant la connexion des LLM à des sources de données et outils externes.
Mistral : Startup française développant des LLM open source performants et efficaces.
MLOps : Pratiques d'ingénierie pour déployer et maintenir des modèles ML en production.
Modèle : Représentation mathématique apprise à partir de données pour faire des prédictions ou générer du contenu.
Multimodal : Capacité d'un modèle à traiter plusieurs types de données (texte, image, audio).
N
NER (Named Entity Recognition) : Tâche d'identification et classification des entités nommées dans un texte.
Neurone artificiel : Unité de calcul basique d'un réseau de neurones, inspirée du neurone biologique.
NLP (Natural Language Processing) : Traitement automatique du langage naturel par des algorithmes.
Normalisation : Transformation des données pour les mettre à une échelle comparable (min-max, z-score).
O
One-Hot Encoding : Représentation d'une catégorie par un vecteur binaire avec un seul 1.
OpenAI : Entreprise développant GPT, DALL-E et ChatGPT.
Optimiseur : Algorithme mettant à jour les poids du modèle (SGD, Adam, AdamW).
Overfitting (Surapprentissage) : Quand un modèle mémorise les données d'entraînement au lieu de généraliser.
P
Paramètre : Poids appris par le modèle pendant l'entraînement.
Perplexité : Métrique mesurant la qualité d'un modèle de langage (plus bas = meilleur).
Pipeline : Chaîne de traitements automatisés (préprocessing, modèle, postprocessing).
Pooling : Opération de réduction de dimensionnalité dans les CNN (max pooling, average pooling).
Pré-entraînement : Phase initiale d'entraînement sur un large corpus avant le fine-tuning.
Précision : Proportion de vrais positifs parmi les prédictions positives.
Prompt : Instruction ou requête en langage naturel donnée à un modèle de langage.
Prompt Engineering : Art de concevoir des prompts efficaces pour obtenir les meilleures réponses d'un LLM.
PyTorch : Framework de deep learning open source développé par Meta.
Q
QLoRA : Extension de LoRA utilisant la quantification pour réduire encore la mémoire requise.
Quantization : Réduction de la précision des poids (float32 → int8/int4) pour compresser un modèle.
R
RAG (Retrieval Augmented Generation) : Technique augmentant un LLM avec des documents récupérés dynamiquement.
Rappel (Recall) : Proportion de vrais positifs parmi tous les cas réellement positifs.
ReAct : Pattern d'agent combinant raisonnement (Reasoning) et action (Acting) en boucle.
Régression : Tâche de prédiction d'une valeur continue (prix, température, score).
Régularisation : Techniques pour prévenir le surapprentissage (L1, L2, dropout, early stopping).
Reinforcement Learning : Voir Apprentissage par renforcement.
ReLU (Rectified Linear Unit) : Fonction d'activation f(x) = max(0, x), la plus utilisée en deep learning.
Réseau de neurones : Modèle composé de couches de neurones artificiels interconnectés.
RLHF (Reinforcement Learning from Human Feedback) : Technique alignant un LLM sur les préférences humaines via l'apprentissage par renforcement.
RNN (Recurrent Neural Network) : Réseau de neurones récurrent pour traiter les données séquentielles.
S
Sampling : Méthode de sélection du prochain token pendant la génération (temperature, top-k, top-p).
Self-Attention : Mécanisme d'attention où chaque élément d'une séquence attend à tous les autres.
Sémantique (Recherche) : Recherche basée sur le sens plutôt que sur les mots-clés exacts, utilisant des embeddings.
Sequence-to-Sequence (Seq2Seq) : Architecture encodeur-décodeur pour transformer une séquence en une autre.
SGD (Stochastic Gradient Descent) : Variante du gradient descent utilisant des mini-batches aléatoires.
Sigmoid : Fonction d'activation compressant les valeurs entre 0 et 1.
SLM (Small Language Model) : Modèle de langage compact et efficient (Phi, Gemma, Mistral 7B).
Softmax : Fonction transformant un vecteur de scores en distribution de probabilités.
Stable Diffusion : Modèle de diffusion open source pour la génération d'images.
Surapprentissage : Voir Overfitting.
System Prompt : Instructions de haut niveau définissant le comportement et la personnalité d'un LLM.
T
Temperature : Paramètre contrôlant le caractère aléatoire de la génération (élevée = créatif, basse = déterministe).
TensorFlow : Framework de deep learning open source développé par Google.
Test Set : Jeu de données réservé pour évaluer les performances finales du modèle.
Token : Unité de base du texte (mot, sous-mot ou caractère) traitée par un modèle de langage.
Tokenization : Processus de découpage du texte en tokens (BPE, WordPiece, SentencePiece).
Top-k Sampling : Méthode de génération sélectionnant parmi les k tokens les plus probables.
Top-p (Nucleus) Sampling : Méthode de génération sélectionnant parmi les tokens dont la probabilité cumulée atteint p.
TPU (Tensor Processing Unit) : Processeur spécialisé de Google pour les calculs de tenseurs.
Training Set : Jeu de données utilisé pour entraîner le modèle.
Transfer Learning : Réutilisation d'un modèle pré-entraîné pour une nouvelle tâche.
Transformer : Architecture de réseau de neurones basée sur le mécanisme d'auto-attention (Vaswani et al., 2017).
U
Underfitting : Quand un modèle est trop simple pour capturer les patterns des données.
V
Validation Set : Jeu de données pour ajuster les hyperparamètres et prévenir le surapprentissage.
VAE (Variational Autoencoder) : Autoencoder génératif apprenant une distribution latente.
Vector Database : Base de données optimisée pour stocker et rechercher des embeddings par similarité.
Vision par ordinateur : Domaine de l'IA traitant de l'analyse et la compréhension des images et vidéos.
ViT (Vision Transformer) : Application de l'architecture Transformer au traitement d'images.
W
Weight : Voir Paramètre.
Word2Vec : Technique d'embedding de mots par prédiction de contexte (Google, 2013).
X
XAI (Explainable AI) : Domaine visant à rendre les décisions des modèles d'IA interprétables et explicables.
Z
Zero-Shot Learning : Capacité d'un modèle à effectuer une tâche sans exemple préalable dans le prompt.
Terme manquant ? Ce glossaire est régulièrement mis à jour. Consultez la section LLM et IA Générative pour des explications plus détaillées.