Datasets

Une sélection de datasets publics essentiels pour entraîner et évaluer des modèles de machine learning, classés par domaine.

Plateformes de datasets

Hugging Face Datasets

from datasets import load_dataset

# Charger un dataset
dataset = load_dataset("imdb")

# Explorer
print(dataset)
print(dataset["train"][0])

# Filtrer et transformer
filtered = dataset.filter(lambda x: len(x["text"]) > 100)
tokenized = dataset.map(tokenize_function, batched=True)

Avantages :
├── 50,000+ datasets
├── Intégration seamless avec Transformers
├── Streaming pour gros datasets
├── Versioning et documentation
└── API unifiée

URL : huggingface.co/datasets

Kaggle

Avantages :
├── Datasets de compétitions
├── Notebooks associés
├── Communauté active
├── Kernels pour explorer

Accès :
├── Interface web
├── kaggle CLI
└── API Python

URL : kaggle.com/datasets

Autres plateformes

Plateforme	Focus	Accès
UCI ML Repository	Classiques ML	Gratuit
Google Dataset Search	Recherche globale	Gratuit
AWS Open Data	Big Data	Gratuit
Papers With Code	Benchmarks	Gratuit
Roboflow	Vision	Freemium
Data.gouv.fr	Open Data France	Gratuit

Vision par ordinateur

Classification d'images

ImageNet

Taille   : 14M+ images, 1000 classes
Usage    : Benchmark standard, pré-entraînement
Format   : JPEG
Licence  : Recherche uniquement

Variantes :
├── ImageNet-1K (1000 classes, 1.2M images)
├── ImageNet-21K (21000 classes)
└── ImageNet-A/O/R (robustesse)

CIFAR-10/100

from torchvision import datasets

cifar10 = datasets.CIFAR10(root='./data', download=True)
# 60,000 images 32x32, 10 classes

CIFAR-10  : 10 classes (avion, auto, oiseau...)
CIFAR-100 : 100 classes (20 superclasses)
Taille    : 60,000 images (32x32)
Usage     : Prototypage rapide, enseignement

MNIST / Fashion-MNIST

from torchvision import datasets

mnist = datasets.MNIST(root='./data', download=True)
fashion = datasets.FashionMNIST(root='./data', download=True)

MNIST         : Chiffres manuscrits (0-9)
Fashion-MNIST : Vêtements (10 catégories)
Taille        : 70,000 images 28x28
Usage         : Tutoriels, "Hello World" du DL

Détection d'objets

COCO (Common Objects in Context)

Taille   : 330K images, 80 catégories
Tâches   : Détection, segmentation, keypoints
Format   : JSON annotations
Licence  : CC BY 4.0

Variantes :
├── COCO Detection
├── COCO Segmentation
├── COCO Keypoints
└── COCO Captions

Pascal VOC

Taille  : 11K images, 20 classes
Tâches  : Détection, segmentation
Usage   : Benchmark historique
Format  : XML annotations

Open Images

Taille  : 9M images, 600 classes
Tâches  : Classification, détection, segmentation
Source  : Google
Licence : CC BY 4.0

Segmentation

Dataset	Images	Classes	Usage
ADE20K	25K	150	Scènes intérieures/extérieures
Cityscapes	5K	30	Conduite autonome
KITTI	15K	8	Véhicules autonomes
NYU Depth	1.4K	40	RGB-D intérieur

Visages

Dataset	Taille	Usage
LFW	13K visages	Vérification faciale
CelebA	200K visages	Attributs faciaux
FFHQ	70K visages	Génération haute qualité
VGGFace2	3.3M visages	Reconnaissance

NLP

Classification de texte

IMDb Reviews

from datasets import load_dataset

imdb = load_dataset("imdb")
# 50K reviews, sentiment binaire

Taille  : 50,000 reviews
Tâche   : Sentiment (positif/négatif)
Langue  : Anglais
Usage   : Benchmark classification

AG News

Taille     : 120K articles
Classes    : 4 (World, Sports, Business, Sci/Tech)
Langue     : Anglais
Usage      : Classification multi-classe

Question-Answering

SQuAD

from datasets import load_dataset

squad = load_dataset("squad")
# 100K+ questions avec contexte

SQuAD 1.1 : 100K+ questions (réponse dans le texte)
SQuAD 2.0 : + questions sans réponse
Format    : Contexte + Question → Réponse (span)
Langue    : Anglais

Natural Questions

Source  : Google Search
Taille  : 300K questions
Format  : Questions réelles + Wikipedia
Usage   : QA open-domain

Traduction

Dataset	Paires	Langues
WMT	Variable	Multi (DE, FR, ZH...)
OPUS	Billions	400+ langues
ParaCrawl	Billions	Langues UE
CCMatrix	Billions	90+ langues

Datasets français

Dataset	Taille	Tâche
Allociné	200K	Sentiment (films)
FLUE	Variable	Benchmark NLU français
FQuAD	25K	QA français
PIAF	3.8K	QA français
CamemBERT corpus	138GB	Pré-entraînement

LLM et instruction-tuning

Dataset	Taille	Usage
Alpaca	52K	Instructions simples
Dolly	15K	Instructions variées
OpenAssistant	160K	Conversations
FLAN	Millions	Multi-tâche
ShareGPT	Variable	Conversations ChatGPT

Audio

Reconnaissance vocale

Dataset	Heures	Langues
LibriSpeech	1000h	Anglais
Common Voice	18K+ h	100+ langues
VoxPopuli	400K h	23 langues UE
GigaSpeech	10K h	Anglais

Français

Dataset	Heures	Source
Common Voice FR	800h	Mozilla
MediaSpeech FR	10h	Parlement
ESTER	100h	Radio
REPERE	60h	TV

Musique

Dataset	Taille	Usage
GTZAN	1000 clips	Genre classification
MusicNet	330 pièces	Transcription
NSynth	300K notes	Synthèse
MTG-Jamendo	55K pistes	Tagging

Séries temporelles

Finance

Dataset	Contenu
Yahoo Finance	Prix historiques
Quandl	Données économiques
Kaggle Stock	Compétitions diverses

IoT et capteurs

Dataset	Usage
UCI HAR	Reconnaissance d'activité
PAMAP2	Activité physique
ECG5000	Électrocardiogrammes
Numenta NAB	Détection d'anomalies

Tabulaire

Classiques ML

Dataset	Taille	Tâche
Iris	150	Classification multi-classe
Wine	178	Classification
Boston Housing	506	Régression
Titanic	891	Classification binaire
Adult Census	48K	Classification

Kaggle populaires

Dataset	Tâche
House Prices	Régression
Credit Card Fraud	Détection anomalies
Customer Churn	Classification
Rossmann Store Sales	Prévision

Benchmarks et évaluation

NLP

Benchmark	Tâches	Usage
GLUE	9 tâches NLU	Évaluation modèles
SuperGLUE	8 tâches (plus dur)	Évaluation avancée
MMLU	57 sujets	Connaissances générales
HellaSwag	Raisonnement	Bon sens
TruthfulQA	817 questions	Véracité

Vision

Benchmark	Focus
ImageNet	Classification
COCO	Détection, segmentation
LVIS	Détection long-tail
ADE20K	Segmentation scènes

LLM

Benchmark	Évalue
MMLU	Connaissances
HumanEval	Code
GSM8K	Math
BIG-Bench	Capacités diverses
MT-Bench	Qualité conversations

Bonnes pratiques

Choisir un dataset

CRITÈRES :
├── Taille suffisante pour la tâche
├── Qualité des annotations
├── Représentativité des données
├── Licence compatible
└── Documentation disponible

QUESTIONS À SE POSER :
├── Le dataset est-il assez grand ?
├── Les annotations sont-elles fiables ?
├── Y a-t-il des biais connus ?
├── Puis-je l'utiliser commercialement ?
└── Existe-t-il des benchmarks ?

Préparer les données

from datasets import load_dataset
from sklearn.model_selection import train_test_split

# Charger
dataset = load_dataset("imdb")

# Vérifier
print(dataset["train"].features)
print(dataset["train"][0])

# Split train/val/test
train_val = dataset["train"].train_test_split(test_size=0.1)
train = train_val["train"]
val = train_val["test"]
test = dataset["test"]

# Préprocesser
def preprocess(examples):
    return tokenizer(examples["text"], truncation=True, padding=True)

train = train.map(preprocess, batched=True)

Licences courantes

Licence	Commercial	Modification	Attribution
CC0	Oui	Oui	Non
CC BY	Oui	Oui	Oui
CC BY-SA	Oui	Oui (ShareAlike)	Oui
CC BY-NC	Non	Oui	Oui
Research only	Non	Variable	Oui

Résumé

PLATEFORMES :
├── Hugging Face Datasets (50K+)
├── Kaggle (compétitions)
├── UCI ML Repository (classiques)
└── Papers With Code (benchmarks)

PAR DOMAINE :

Vision :
├── Classification : ImageNet, CIFAR, MNIST
├── Détection : COCO, Pascal VOC
└── Segmentation : ADE20K, Cityscapes

NLP :
├── Classification : IMDb, AG News
├── QA : SQuAD, Natural Questions
├── Français : Allociné, FQuAD, FLUE

Audio :
├── Speech : LibriSpeech, Common Voice
└── Français : Common Voice FR, ESTER

Tabulaire :
├── Classiques : Iris, Titanic, Boston
└── Kaggle : House Prices, Credit Fraud

BENCHMARKS :
├── NLP : GLUE, SuperGLUE, MMLU
├── Vision : ImageNet, COCO
└── LLM : HumanEval, MT-Bench

Datasets

On this page