Wiki IA
Introduction

Concepts fondamentaux

Les notions essentielles pour comprendre l'intelligence artificielle

Avant de plonger dans le Machine Learning et le Deep Learning, il est crucial de maîtriser les concepts de base qui sous-tendent toute l'IA moderne.

Données

Les données sont le carburant de l'IA. Sans données, pas d'apprentissage.

Types de données

TypeDescriptionExemples
StructuréesOrganisées en tableauxBases de données, CSV
Non structuréesFormat libreTexte, images, audio
Semi-structuréesPartiellement organiséesJSON, XML

Qualité des données

La règle d'or : Garbage In, Garbage Out.

Une IA ne sera jamais meilleure que les données sur lesquelles elle a été entraînée :

  • Volume : suffisamment d'exemples pour apprendre
  • Variété : représentative de tous les cas possibles
  • Véracité : données correctes et fiables
  • Actualité : données à jour

Des données biaisées produisent une IA biaisée. Si les données d'entraînement sur-représentent certains groupes, l'IA reproduira ces déséquilibres.

Algorithmes

Un algorithme est une séquence d'instructions pour résoudre un problème.

Algorithmes classiques vs Machine Learning

Approche classique :

Données + Règles → Programme → Résultat

Approche Machine Learning :

Données + Résultats attendus → Algorithme ML → Règles apprises

La différence fondamentale : en ML, on n'écrit pas les règles, on les découvre à partir des données.

Familles d'algorithmes ML

  • Régression : prédire une valeur numérique (prix, température)
  • Classification : assigner une catégorie (spam/non-spam, chat/chien)
  • Clustering : regrouper des éléments similaires
  • Réduction de dimension : simplifier des données complexes

Modèles

Un modèle est le résultat de l'entraînement d'un algorithme sur des données.

Anatomie d'un modèle

┌─────────────────────────────────────┐
│            MODÈLE                   │
│  ┌───────────────────────────────┐  │
│  │  Paramètres appris            │  │
│  │  (poids, biais)               │  │
│  └───────────────────────────────┘  │
│  ┌───────────────────────────────┐  │
│  │  Architecture                 │  │
│  │  (structure du réseau)        │  │
│  └───────────────────────────────┘  │
└─────────────────────────────────────┘
         ↓ Entrée    ↓ Sortie
       [Données] → [Prédiction]

Paramètres vs Hyperparamètres

ParamètresHyperparamètres
Appris automatiquementDéfinis manuellement
Poids des connexionsTaux d'apprentissage
Biais des neuronesNombre de couches
Modifiés pendant l'entraînementFixés avant l'entraînement

Entraînement

L'entraînement est le processus par lequel un modèle apprend à partir des données.

Le cycle d'entraînement

  1. Forward pass : le modèle fait une prédiction
  2. Calcul de l'erreur : on compare avec la vraie réponse
  3. Backward pass : on calcule comment ajuster les paramètres
  4. Mise à jour : on modifie les paramètres pour réduire l'erreur

Ce cycle se répète des milliers, voire des millions de fois.

Fonction de perte (Loss)

La fonction de perte mesure l'écart entre la prédiction et la réalité :

  • Plus la perte est basse, meilleur est le modèle
  • L'objectif de l'entraînement est de minimiser cette perte

Époques et batchs

  • Époque : un passage complet sur toutes les données
  • Batch : un sous-ensemble de données traité en une fois
  • Itération : traitement d'un batch
Dataset de 10 000 exemples
Batch size de 100
→ 100 itérations par époque

Inférence

L'inférence est l'utilisation d'un modèle entraîné pour faire des prédictions sur de nouvelles données.

Entraînement vs Inférence

EntraînementInférence
ApprendreUtiliser
Coûteux en calculRelativement léger
Une seule foisÀ chaque utilisation
Nécessite des GPUsPossible sur CPU

Généralisation

La généralisation est la capacité d'un modèle à bien fonctionner sur des données qu'il n'a jamais vues.

Le problème du surapprentissage (Overfitting)

Un modèle qui mémorise les données d'entraînement au lieu d'apprendre les patterns généraux :

Entraînement : 99% de précision ✓
Test :         60% de précision ✗
→ Surapprentissage !

Le problème du sous-apprentissage (Underfitting)

Un modèle trop simple qui ne capture pas la complexité des données :

Entraînement : 60% de précision ✗
Test :         58% de précision ✗
→ Sous-apprentissage !

L'équilibre idéal

Entraînement : 92% de précision ✓
Test :         90% de précision ✓
→ Bonne généralisation !

Ensembles de données

Train / Validation / Test

Les données sont divisées en trois ensembles :

EnsembleUsageProportion typique
TrainEntraîner le modèle70-80%
ValidationAjuster les hyperparamètres10-15%
TestÉvaluation finale10-15%

Le jeu de test ne doit jamais être utilisé pendant l'entraînement. C'est le "bac blanc" final qui mesure la vraie performance.

Métriques d'évaluation

Pour la classification

  • Accuracy : % de prédictions correctes
  • Précision : parmi les positifs prédits, combien sont vrais ?
  • Recall : parmi les vrais positifs, combien ont été trouvés ?
  • F1-score : moyenne harmonique précision/recall

Pour la régression

  • MAE (Mean Absolute Error) : erreur moyenne absolue
  • MSE (Mean Squared Error) : erreur quadratique moyenne
  • RMSE : racine de la MSE
  • : coefficient de détermination

Résumé

┌─────────────────────────────────────────────────────────────┐
│                    PIPELINE IA                               │
├─────────────────────────────────────────────────────────────┤
│                                                              │
│  DONNÉES → ALGORITHME → ENTRAÎNEMENT → MODÈLE → INFÉRENCE  │
│                                                              │
│  Collecte    Choix        Optimisation   Sauvegarde  Prédiction │
│  Nettoyage   Architecture  Validation    Déploiement         │
│  Split       Hyperparams   Métriques                         │
│                                                              │
└─────────────────────────────────────────────────────────────┘

On this page