Wiki IA
Ressources

Datasets

Jeux de données publics pour l'entraînement et l'évaluation

Une sélection de datasets publics essentiels pour entraîner et évaluer des modèles de machine learning, classés par domaine.

Plateformes de datasets

Hugging Face Datasets

from datasets import load_dataset

# Charger un dataset
dataset = load_dataset("imdb")

# Explorer
print(dataset)
print(dataset["train"][0])

# Filtrer et transformer
filtered = dataset.filter(lambda x: len(x["text"]) > 100)
tokenized = dataset.map(tokenize_function, batched=True)
Avantages :
├── 50,000+ datasets
├── Intégration seamless avec Transformers
├── Streaming pour gros datasets
├── Versioning et documentation
└── API unifiée

URL : huggingface.co/datasets

Kaggle

Avantages :
├── Datasets de compétitions
├── Notebooks associés
├── Communauté active
├── Kernels pour explorer

Accès :
├── Interface web
├── kaggle CLI
└── API Python

URL : kaggle.com/datasets

Autres plateformes

PlateformeFocusAccès
UCI ML RepositoryClassiques MLGratuit
Google Dataset SearchRecherche globaleGratuit
AWS Open DataBig DataGratuit
Papers With CodeBenchmarksGratuit
RoboflowVisionFreemium
Data.gouv.frOpen Data FranceGratuit

Vision par ordinateur

Classification d'images

ImageNet

Taille   : 14M+ images, 1000 classes
Usage    : Benchmark standard, pré-entraînement
Format   : JPEG
Licence  : Recherche uniquement

Variantes :
├── ImageNet-1K (1000 classes, 1.2M images)
├── ImageNet-21K (21000 classes)
└── ImageNet-A/O/R (robustesse)

CIFAR-10/100

from torchvision import datasets

cifar10 = datasets.CIFAR10(root='./data', download=True)
# 60,000 images 32x32, 10 classes
CIFAR-10  : 10 classes (avion, auto, oiseau...)
CIFAR-100 : 100 classes (20 superclasses)
Taille    : 60,000 images (32x32)
Usage     : Prototypage rapide, enseignement

MNIST / Fashion-MNIST

from torchvision import datasets

mnist = datasets.MNIST(root='./data', download=True)
fashion = datasets.FashionMNIST(root='./data', download=True)
MNIST         : Chiffres manuscrits (0-9)
Fashion-MNIST : Vêtements (10 catégories)
Taille        : 70,000 images 28x28
Usage         : Tutoriels, "Hello World" du DL

Détection d'objets

COCO (Common Objects in Context)

Taille   : 330K images, 80 catégories
Tâches   : Détection, segmentation, keypoints
Format   : JSON annotations
Licence  : CC BY 4.0

Variantes :
├── COCO Detection
├── COCO Segmentation
├── COCO Keypoints
└── COCO Captions

Pascal VOC

Taille  : 11K images, 20 classes
Tâches  : Détection, segmentation
Usage   : Benchmark historique
Format  : XML annotations

Open Images

Taille  : 9M images, 600 classes
Tâches  : Classification, détection, segmentation
Source  : Google
Licence : CC BY 4.0

Segmentation

DatasetImagesClassesUsage
ADE20K25K150Scènes intérieures/extérieures
Cityscapes5K30Conduite autonome
KITTI15K8Véhicules autonomes
NYU Depth1.4K40RGB-D intérieur

Visages

DatasetTailleUsage
LFW13K visagesVérification faciale
CelebA200K visagesAttributs faciaux
FFHQ70K visagesGénération haute qualité
VGGFace23.3M visagesReconnaissance

NLP

Classification de texte

IMDb Reviews

from datasets import load_dataset

imdb = load_dataset("imdb")
# 50K reviews, sentiment binaire
Taille  : 50,000 reviews
Tâche   : Sentiment (positif/négatif)
Langue  : Anglais
Usage   : Benchmark classification

AG News

Taille     : 120K articles
Classes    : 4 (World, Sports, Business, Sci/Tech)
Langue     : Anglais
Usage      : Classification multi-classe

Question-Answering

SQuAD

from datasets import load_dataset

squad = load_dataset("squad")
# 100K+ questions avec contexte
SQuAD 1.1 : 100K+ questions (réponse dans le texte)
SQuAD 2.0 : + questions sans réponse
Format    : Contexte + Question → Réponse (span)
Langue    : Anglais

Natural Questions

Source  : Google Search
Taille  : 300K questions
Format  : Questions réelles + Wikipedia
Usage   : QA open-domain

Traduction

DatasetPairesLangues
WMTVariableMulti (DE, FR, ZH...)
OPUSBillions400+ langues
ParaCrawlBillionsLangues UE
CCMatrixBillions90+ langues

Datasets français

DatasetTailleTâche
Allociné200KSentiment (films)
FLUEVariableBenchmark NLU français
FQuAD25KQA français
PIAF3.8KQA français
CamemBERT corpus138GBPré-entraînement

LLM et instruction-tuning

DatasetTailleUsage
Alpaca52KInstructions simples
Dolly15KInstructions variées
OpenAssistant160KConversations
FLANMillionsMulti-tâche
ShareGPTVariableConversations ChatGPT

Audio

Reconnaissance vocale

DatasetHeuresLangues
LibriSpeech1000hAnglais
Common Voice18K+ h100+ langues
VoxPopuli400K h23 langues UE
GigaSpeech10K hAnglais

Français

DatasetHeuresSource
Common Voice FR800hMozilla
MediaSpeech FR10hParlement
ESTER100hRadio
REPERE60hTV

Musique

DatasetTailleUsage
GTZAN1000 clipsGenre classification
MusicNet330 piècesTranscription
NSynth300K notesSynthèse
MTG-Jamendo55K pistesTagging

Séries temporelles

Finance

DatasetContenu
Yahoo FinancePrix historiques
QuandlDonnées économiques
Kaggle StockCompétitions diverses

IoT et capteurs

DatasetUsage
UCI HARReconnaissance d'activité
PAMAP2Activité physique
ECG5000Électrocardiogrammes
Numenta NABDétection d'anomalies

Tabulaire

Classiques ML

DatasetTailleTâche
Iris150Classification multi-classe
Wine178Classification
Boston Housing506Régression
Titanic891Classification binaire
Adult Census48KClassification

Kaggle populaires

DatasetTâche
House PricesRégression
Credit Card FraudDétection anomalies
Customer ChurnClassification
Rossmann Store SalesPrévision

Benchmarks et évaluation

NLP

BenchmarkTâchesUsage
GLUE9 tâches NLUÉvaluation modèles
SuperGLUE8 tâches (plus dur)Évaluation avancée
MMLU57 sujetsConnaissances générales
HellaSwagRaisonnementBon sens
TruthfulQA817 questionsVéracité

Vision

BenchmarkFocus
ImageNetClassification
COCODétection, segmentation
LVISDétection long-tail
ADE20KSegmentation scènes

LLM

BenchmarkÉvalue
MMLUConnaissances
HumanEvalCode
GSM8KMath
BIG-BenchCapacités diverses
MT-BenchQualité conversations

Bonnes pratiques

Choisir un dataset

CRITÈRES :
├── Taille suffisante pour la tâche
├── Qualité des annotations
├── Représentativité des données
├── Licence compatible
└── Documentation disponible

QUESTIONS À SE POSER :
├── Le dataset est-il assez grand ?
├── Les annotations sont-elles fiables ?
├── Y a-t-il des biais connus ?
├── Puis-je l'utiliser commercialement ?
└── Existe-t-il des benchmarks ?

Préparer les données

from datasets import load_dataset
from sklearn.model_selection import train_test_split

# Charger
dataset = load_dataset("imdb")

# Vérifier
print(dataset["train"].features)
print(dataset["train"][0])

# Split train/val/test
train_val = dataset["train"].train_test_split(test_size=0.1)
train = train_val["train"]
val = train_val["test"]
test = dataset["test"]

# Préprocesser
def preprocess(examples):
    return tokenizer(examples["text"], truncation=True, padding=True)

train = train.map(preprocess, batched=True)

Licences courantes

LicenceCommercialModificationAttribution
CC0OuiOuiNon
CC BYOuiOuiOui
CC BY-SAOuiOui (ShareAlike)Oui
CC BY-NCNonOuiOui
Research onlyNonVariableOui

Résumé

PLATEFORMES :
├── Hugging Face Datasets (50K+)
├── Kaggle (compétitions)
├── UCI ML Repository (classiques)
└── Papers With Code (benchmarks)

PAR DOMAINE :

Vision :
├── Classification : ImageNet, CIFAR, MNIST
├── Détection : COCO, Pascal VOC
└── Segmentation : ADE20K, Cityscapes

NLP :
├── Classification : IMDb, AG News
├── QA : SQuAD, Natural Questions
├── Français : Allociné, FQuAD, FLUE

Audio :
├── Speech : LibriSpeech, Common Voice
└── Français : Common Voice FR, ESTER

Tabulaire :
├── Classiques : Iris, Titanic, Boston
└── Kaggle : House Prices, Credit Fraud

BENCHMARKS :
├── NLP : GLUE, SuperGLUE, MMLU
├── Vision : ImageNet, COCO
└── LLM : HumanEval, MT-Bench

On this page