Glossaire

Un glossaire complet des termes essentiels en intelligence artificielle, machine learning et deep learning.

Ce glossaire contient 80+ définitions organisées alphabétiquement. Utilisez Ctrl+F pour rechercher un terme spécifique.

A

Accuracy (Précision globale) : Proportion de prédictions correctes sur l'ensemble des prédictions. Métrique de base pour évaluer un modèle de classification.

Activation (Fonction d') : Fonction mathématique appliquée à la sortie d'un neurone (ReLU, Sigmoid, Tanh) pour introduire de la non-linéarité.

Agent IA : Système autonome combinant un LLM avec des outils externes pour accomplir des tâches complexes via une boucle de raisonnement-action.

Algorithme : Suite d'instructions permettant de résoudre un problème ou d'effectuer une tâche de manière déterministe.

Alignement : Processus visant à faire en sorte que le comportement d'une IA soit conforme aux intentions et valeurs humaines.

Annotation : Processus d'étiquetage manuel des données pour créer des jeux de données supervisés.

API (Application Programming Interface) : Interface permettant d'interagir avec un modèle ou service via des requêtes programmatiques.

Apprentissage automatique : Voir Machine Learning.

Apprentissage non supervisé : Méthode où le modèle apprend des patterns sans labels (ex: clustering, réduction de dimensionnalité).

Apprentissage par renforcement (RL) : Paradigme où un agent apprend par essai-erreur en maximisant une récompense cumulative.

Apprentissage supervisé : Méthode où le modèle apprend à partir de données étiquetées (paires entrée-sortie).

Attention (Mécanisme d') : Technique permettant à un modèle de pondérer l'importance relative des différentes parties de l'entrée.

Autoencoder : Réseau de neurones qui apprend à compresser puis reconstruire ses entrées, utile pour la réduction de dimensionnalité.

B

Backpropagation : Algorithme de calcul du gradient utilisé pour entraîner les réseaux de neurones par propagation arrière de l'erreur.

Batch : Groupe d'échantillons traités simultanément pendant l'entraînement pour optimiser les calculs.

Batch Normalization : Technique de normalisation des activations entre couches pour stabiliser et accélérer l'entraînement.

BERT : Modèle de langage bidirectionnel de Google (2018), pionnier du pré-entraînement pour le NLP.

Biais : Erreur systématique dans les prédictions d'un modèle, souvent due aux données d'entraînement ou à la conception du modèle.

Biais-Variance (Compromis) : Équilibre entre erreur due à des hypothèses simplificatrices (biais) et sensibilité aux variations des données (variance).

C

Chain-of-Thought (CoT) : Technique de prompting incitant le modèle à détailler son raisonnement étape par étape.

Chatbot : Agent conversationnel utilisant le NLP pour dialoguer avec les utilisateurs.

Chunking : Division d'un document en segments pour le traitement par un LLM ou l'indexation dans un système RAG.

Classification : Tâche consistant à attribuer une catégorie prédéfinie à une entrée.

Claude : Famille de LLM développés par Anthropic, connus pour leur sécurité et leurs capacités de raisonnement.

Clustering : Regroupement automatique de données similaires sans labels prédéfinis (ex: K-Means, DBSCAN).

CNN (Convolutional Neural Network) : Réseau de neurones spécialisé dans le traitement d'images utilisant des filtres de convolution.

Contexte (Fenêtre de) : Nombre maximum de tokens qu'un LLM peut traiter en une seule fois (ex: 128K pour GPT-4, 200K pour Claude 3).

Cross-Entropy : Fonction de perte couramment utilisée pour les tâches de classification.

CUDA : Plateforme de calcul parallèle de NVIDIA pour l'entraînement sur GPU.

D

Data Augmentation : Techniques pour augmenter artificiellement la taille d'un jeu de données (rotations, flips, bruit...).

Dataset : Jeu de données utilisé pour entraîner, valider ou tester un modèle.

Deep Learning : Sous-domaine du Machine Learning utilisant des réseaux de neurones profonds (plusieurs couches).

Diffusion (Modèle de) : Architecture générative apprenant à débruiter progressivement du bruit pour générer des images (Stable Diffusion, DALL-E).

Distillation : Technique de compression où un petit modèle (élève) apprend à imiter un grand modèle (professeur).

Dropout : Technique de régularisation désactivant aléatoirement des neurones pendant l'entraînement pour éviter le surapprentissage.

E

Edge AI : Déploiement de modèles d'IA directement sur des appareils locaux (smartphones, IoT) plutôt que dans le cloud.

Embedding : Représentation vectorielle dense d'une donnée (texte, image, utilisateur) dans un espace de dimension réduite.

Epoch : Passage complet sur l'ensemble du jeu de données d'entraînement.

Éthique de l'IA : Domaine étudiant les implications morales et sociétales de l'intelligence artificielle.

F

F1-Score : Moyenne harmonique de la précision et du rappel, utile pour les jeux de données déséquilibrés.

Feature : Caractéristique ou attribut d'une donnée utilisé comme entrée du modèle.

Feature Engineering : Processus de création et sélection de features pertinentes à partir des données brutes.

Feedforward (Réseau) : Architecture de réseau de neurones où l'information circule uniquement vers l'avant.

Few-Shot Learning : Capacité à apprendre une tâche à partir de très peu d'exemples fournis dans le prompt.

Fine-tuning : Ajustement des poids d'un modèle pré-entraîné sur un jeu de données spécifique à une tâche.

Foundation Model : Grand modèle pré-entraîné servant de base pour diverses applications (GPT, BERT, LLaMA).

Function Calling : Capacité d'un LLM à générer des appels de fonctions structurés pour interagir avec des outils externes.

G

GAN (Generative Adversarial Network) : Architecture où deux réseaux (générateur et discriminateur) s'affrontent pour générer du contenu réaliste.

Gemini : Famille de modèles multimodaux de Google DeepMind.

Génération de texte : Tâche de production de texte nouveau et cohérent à partir d'un contexte.

GPT (Generative Pre-trained Transformer) : Famille de LLM d'OpenAI basés sur l'architecture Transformer decoder-only.

GPU (Graphics Processing Unit) : Processeur graphique massivement parallèle utilisé pour accélérer l'entraînement des modèles.

Gradient : Vecteur de dérivées partielles indiquant la direction de plus forte pente de la fonction de perte.

Gradient Descent : Algorithme d'optimisation itératif minimisant la fonction de perte en suivant le gradient négatif.

Guardrails : Mécanismes de sécurité limitant les comportements indésirables d'un modèle.

H

Hallucination : Génération de contenu faux, inventé ou incohérent par un modèle de langage, présenté avec confiance.

Hugging Face : Plateforme et bibliothèque open source pour les modèles de NLP et ML.

Hyperparamètre : Paramètre de configuration du modèle ou de l'entraînement (learning rate, batch size, nombre de couches).

I

IA Générative : Branche de l'IA capable de créer du nouveau contenu (texte, images, audio, vidéo, code).

IA Symbolique : Approche historique de l'IA basée sur des règles logiques et des représentations explicites des connaissances.

ImageNet : Dataset de référence de 14 millions d'images pour la vision par ordinateur.

Inférence : Utilisation d'un modèle entraîné pour faire des prédictions sur de nouvelles données.

Instruction Tuning : Fine-tuning d'un LLM pour mieux suivre les instructions en langage naturel.

J

Jailbreak : Technique visant à contourner les garde-fous de sécurité d'un modèle de langage.

K

Knowledge Distillation : Voir Distillation.

K-Means : Algorithme de clustering partitionnant les données en K groupes par proximité au centroïde.

L

Label : Étiquette ou annotation associée à une donnée d'entraînement supervisé.

LangChain : Framework Python pour construire des applications avec des LLM (chaînes, agents, RAG).

Latent Space : Espace de représentation compressée appris par un modèle (encodeur, VAE, diffusion).

Learning Rate : Hyperparamètre contrôlant l'amplitude des mises à jour des poids pendant l'entraînement.

LLaMA : Famille de LLM open source développés par Meta.

LLM (Large Language Model) : Grand modèle de langage entraîné sur d'immenses corpus de texte pour prédire le token suivant.

LoRA (Low-Rank Adaptation) : Technique de fine-tuning efficiente ajoutant de petites matrices adaptatives aux poids gelés.

Loss (Fonction de perte) : Fonction mesurant l'écart entre les prédictions du modèle et les valeurs réelles.

LSTM (Long Short-Term Memory) : Architecture RNN avec des portes permettant de capturer les dépendances à long terme.

M

Machine Learning (ML) : Discipline permettant aux systèmes d'apprendre et de s'améliorer à partir de données sans programmation explicite.

MCP (Model Context Protocol) : Protocole standardisant la connexion des LLM à des sources de données et outils externes.

Mistral : Startup française développant des LLM open source performants et efficaces.

MLOps : Pratiques d'ingénierie pour déployer et maintenir des modèles ML en production.

Modèle : Représentation mathématique apprise à partir de données pour faire des prédictions ou générer du contenu.

Multimodal : Capacité d'un modèle à traiter plusieurs types de données (texte, image, audio).

N

NER (Named Entity Recognition) : Tâche d'identification et classification des entités nommées dans un texte.

Neurone artificiel : Unité de calcul basique d'un réseau de neurones, inspirée du neurone biologique.

NLP (Natural Language Processing) : Traitement automatique du langage naturel par des algorithmes.

Normalisation : Transformation des données pour les mettre à une échelle comparable (min-max, z-score).

O

One-Hot Encoding : Représentation d'une catégorie par un vecteur binaire avec un seul 1.

OpenAI : Entreprise développant GPT, DALL-E et ChatGPT.

Optimiseur : Algorithme mettant à jour les poids du modèle (SGD, Adam, AdamW).

Overfitting (Surapprentissage) : Quand un modèle mémorise les données d'entraînement au lieu de généraliser.

P

Paramètre : Poids appris par le modèle pendant l'entraînement.

Perplexité : Métrique mesurant la qualité d'un modèle de langage (plus bas = meilleur).

Pipeline : Chaîne de traitements automatisés (préprocessing, modèle, postprocessing).

Pooling : Opération de réduction de dimensionnalité dans les CNN (max pooling, average pooling).

Pré-entraînement : Phase initiale d'entraînement sur un large corpus avant le fine-tuning.

Précision : Proportion de vrais positifs parmi les prédictions positives.

Prompt : Instruction ou requête en langage naturel donnée à un modèle de langage.

Prompt Engineering : Art de concevoir des prompts efficaces pour obtenir les meilleures réponses d'un LLM.

PyTorch : Framework de deep learning open source développé par Meta.

Q

QLoRA : Extension de LoRA utilisant la quantification pour réduire encore la mémoire requise.

Quantization : Réduction de la précision des poids (float32 → int8/int4) pour compresser un modèle.

R

RAG (Retrieval Augmented Generation) : Technique augmentant un LLM avec des documents récupérés dynamiquement.

Rappel (Recall) : Proportion de vrais positifs parmi tous les cas réellement positifs.

ReAct : Pattern d'agent combinant raisonnement (Reasoning) et action (Acting) en boucle.

Régression : Tâche de prédiction d'une valeur continue (prix, température, score).

Régularisation : Techniques pour prévenir le surapprentissage (L1, L2, dropout, early stopping).

Reinforcement Learning : Voir Apprentissage par renforcement.

ReLU (Rectified Linear Unit) : Fonction d'activation f(x) = max(0, x), la plus utilisée en deep learning.

Réseau de neurones : Modèle composé de couches de neurones artificiels interconnectés.

RLHF (Reinforcement Learning from Human Feedback) : Technique alignant un LLM sur les préférences humaines via l'apprentissage par renforcement.

RNN (Recurrent Neural Network) : Réseau de neurones récurrent pour traiter les données séquentielles.

S

Sampling : Méthode de sélection du prochain token pendant la génération (temperature, top-k, top-p).

Self-Attention : Mécanisme d'attention où chaque élément d'une séquence attend à tous les autres.

Sémantique (Recherche) : Recherche basée sur le sens plutôt que sur les mots-clés exacts, utilisant des embeddings.

Sequence-to-Sequence (Seq2Seq) : Architecture encodeur-décodeur pour transformer une séquence en une autre.

SGD (Stochastic Gradient Descent) : Variante du gradient descent utilisant des mini-batches aléatoires.

Sigmoid : Fonction d'activation compressant les valeurs entre 0 et 1.

SLM (Small Language Model) : Modèle de langage compact et efficient (Phi, Gemma, Mistral 7B).

Softmax : Fonction transformant un vecteur de scores en distribution de probabilités.

Stable Diffusion : Modèle de diffusion open source pour la génération d'images.

Surapprentissage : Voir Overfitting.

System Prompt : Instructions de haut niveau définissant le comportement et la personnalité d'un LLM.

T

Temperature : Paramètre contrôlant le caractère aléatoire de la génération (élevée = créatif, basse = déterministe).

TensorFlow : Framework de deep learning open source développé par Google.

Test Set : Jeu de données réservé pour évaluer les performances finales du modèle.

Token : Unité de base du texte (mot, sous-mot ou caractère) traitée par un modèle de langage.

Tokenization : Processus de découpage du texte en tokens (BPE, WordPiece, SentencePiece).

Top-k Sampling : Méthode de génération sélectionnant parmi les k tokens les plus probables.

Top-p (Nucleus) Sampling : Méthode de génération sélectionnant parmi les tokens dont la probabilité cumulée atteint p.

TPU (Tensor Processing Unit) : Processeur spécialisé de Google pour les calculs de tenseurs.

Training Set : Jeu de données utilisé pour entraîner le modèle.

Transfer Learning : Réutilisation d'un modèle pré-entraîné pour une nouvelle tâche.

Transformer : Architecture de réseau de neurones basée sur le mécanisme d'auto-attention (Vaswani et al., 2017).

U

Underfitting : Quand un modèle est trop simple pour capturer les patterns des données.

V

Validation Set : Jeu de données pour ajuster les hyperparamètres et prévenir le surapprentissage.

VAE (Variational Autoencoder) : Autoencoder génératif apprenant une distribution latente.

Vector Database : Base de données optimisée pour stocker et rechercher des embeddings par similarité.

Vision par ordinateur : Domaine de l'IA traitant de l'analyse et la compréhension des images et vidéos.

ViT (Vision Transformer) : Application de l'architecture Transformer au traitement d'images.

Glossaire

A

B

C

D

E

F

G

H

I

J

K

L

M

N

O

P

Q

R

S

T

U

V

W

X

Z

On this page