Ressources
Datasets Jeux de données publics pour l'entraînement et l'évaluation
Une sélection de datasets publics essentiels pour entraîner et évaluer des modèles de machine learning, classés par domaine.
from datasets import load_dataset
# Charger un dataset
dataset = load_dataset( "imdb" )
# Explorer
print (dataset)
print (dataset[ "train" ][ 0 ])
# Filtrer et transformer
filtered = dataset.filter( lambda x: len (x[ "text" ]) > 100 )
tokenized = dataset.map(tokenize_function, batched = True )
Avantages :
├── 50,000+ datasets
├── Intégration seamless avec Transformers
├── Streaming pour gros datasets
├── Versioning et documentation
└── API unifiée
URL : huggingface.co/datasets
Avantages :
├── Datasets de compétitions
├── Notebooks associés
├── Communauté active
├── Kernels pour explorer
Accès :
├── Interface web
├── kaggle CLI
└── API Python
URL : kaggle.com/datasets
Plateforme Focus Accès UCI ML Repository Classiques ML Gratuit Google Dataset Search Recherche globale Gratuit AWS Open Data Big Data Gratuit Papers With Code Benchmarks Gratuit Roboflow Vision Freemium Data.gouv.fr Open Data France Gratuit
Taille : 14M+ images, 1000 classes
Usage : Benchmark standard, pré-entraînement
Format : JPEG
Licence : Recherche uniquement
Variantes :
├── ImageNet-1K (1000 classes, 1.2M images)
├── ImageNet-21K (21000 classes)
└── ImageNet-A/O/R (robustesse)
from torchvision import datasets
cifar10 = datasets.CIFAR10( root = './data' , download = True )
# 60,000 images 32x32, 10 classes
CIFAR-10 : 10 classes (avion, auto, oiseau...)
CIFAR-100 : 100 classes (20 superclasses)
Taille : 60,000 images (32x32)
Usage : Prototypage rapide, enseignement
from torchvision import datasets
mnist = datasets.MNIST( root = './data' , download = True )
fashion = datasets.FashionMNIST( root = './data' , download = True )
MNIST : Chiffres manuscrits (0-9)
Fashion-MNIST : Vêtements (10 catégories)
Taille : 70,000 images 28x28
Usage : Tutoriels, "Hello World" du DL
Taille : 330K images, 80 catégories
Tâches : Détection, segmentation, keypoints
Format : JSON annotations
Licence : CC BY 4.0
Variantes :
├── COCO Detection
├── COCO Segmentation
├── COCO Keypoints
└── COCO Captions
Taille : 11K images, 20 classes
Tâches : Détection, segmentation
Usage : Benchmark historique
Format : XML annotations
Taille : 9M images, 600 classes
Tâches : Classification, détection, segmentation
Source : Google
Licence : CC BY 4.0
Dataset Images Classes Usage ADE20K 25K 150 Scènes intérieures/extérieures Cityscapes 5K 30 Conduite autonome KITTI 15K 8 Véhicules autonomes NYU Depth 1.4K 40 RGB-D intérieur
Dataset Taille Usage LFW 13K visages Vérification faciale CelebA 200K visages Attributs faciaux FFHQ 70K visages Génération haute qualité VGGFace2 3.3M visages Reconnaissance
from datasets import load_dataset
imdb = load_dataset( "imdb" )
# 50K reviews, sentiment binaire
Taille : 50,000 reviews
Tâche : Sentiment (positif/négatif)
Langue : Anglais
Usage : Benchmark classification
Taille : 120K articles
Classes : 4 (World, Sports, Business, Sci/Tech)
Langue : Anglais
Usage : Classification multi-classe
from datasets import load_dataset
squad = load_dataset( "squad" )
# 100K+ questions avec contexte
SQuAD 1.1 : 100K+ questions (réponse dans le texte)
SQuAD 2.0 : + questions sans réponse
Format : Contexte + Question → Réponse (span)
Langue : Anglais
Source : Google Search
Taille : 300K questions
Format : Questions réelles + Wikipedia
Usage : QA open-domain
Dataset Paires Langues WMT Variable Multi (DE, FR, ZH...) OPUS Billions 400+ langues ParaCrawl Billions Langues UE CCMatrix Billions 90+ langues
Dataset Taille Tâche Allociné 200K Sentiment (films) FLUE Variable Benchmark NLU français FQuAD 25K QA français PIAF 3.8K QA français CamemBERT corpus 138GB Pré-entraînement
Dataset Taille Usage Alpaca 52K Instructions simples Dolly 15K Instructions variées OpenAssistant 160K Conversations FLAN Millions Multi-tâche ShareGPT Variable Conversations ChatGPT
Dataset Heures Langues LibriSpeech 1000h Anglais Common Voice 18K+ h 100+ langues VoxPopuli 400K h 23 langues UE GigaSpeech 10K h Anglais
Dataset Heures Source Common Voice FR 800h Mozilla MediaSpeech FR 10h Parlement ESTER 100h Radio REPERE 60h TV
Dataset Taille Usage GTZAN 1000 clips Genre classification MusicNet 330 pièces Transcription NSynth 300K notes Synthèse MTG-Jamendo 55K pistes Tagging
Dataset Contenu Yahoo Finance Prix historiques Quandl Données économiques Kaggle Stock Compétitions diverses
Dataset Usage UCI HAR Reconnaissance d'activité PAMAP2 Activité physique ECG5000 Électrocardiogrammes Numenta NAB Détection d'anomalies
Dataset Taille Tâche Iris 150 Classification multi-classe Wine 178 Classification Boston Housing 506 Régression Titanic 891 Classification binaire Adult Census 48K Classification
Dataset Tâche House Prices Régression Credit Card Fraud Détection anomalies Customer Churn Classification Rossmann Store Sales Prévision
Benchmark Tâches Usage GLUE 9 tâches NLU Évaluation modèles SuperGLUE 8 tâches (plus dur) Évaluation avancée MMLU 57 sujets Connaissances générales HellaSwag Raisonnement Bon sens TruthfulQA 817 questions Véracité
Benchmark Focus ImageNet Classification COCO Détection, segmentation LVIS Détection long-tail ADE20K Segmentation scènes
Benchmark Évalue MMLU Connaissances HumanEval Code GSM8K Math BIG-Bench Capacités diverses MT-Bench Qualité conversations
CRITÈRES :
├── Taille suffisante pour la tâche
├── Qualité des annotations
├── Représentativité des données
├── Licence compatible
└── Documentation disponible
QUESTIONS À SE POSER :
├── Le dataset est-il assez grand ?
├── Les annotations sont-elles fiables ?
├── Y a-t-il des biais connus ?
├── Puis-je l'utiliser commercialement ?
└── Existe-t-il des benchmarks ?
from datasets import load_dataset
from sklearn.model_selection import train_test_split
# Charger
dataset = load_dataset( "imdb" )
# Vérifier
print (dataset[ "train" ].features)
print (dataset[ "train" ][ 0 ])
# Split train/val/test
train_val = dataset[ "train" ].train_test_split( test_size = 0.1 )
train = train_val[ "train" ]
val = train_val[ "test" ]
test = dataset[ "test" ]
# Préprocesser
def preprocess (examples):
return tokenizer(examples[ "text" ], truncation = True , padding = True )
train = train.map(preprocess, batched = True )
Licence Commercial Modification Attribution CC0 Oui Oui Non CC BY Oui Oui Oui CC BY-SA Oui Oui (ShareAlike) Oui CC BY-NC Non Oui Oui Research only Non Variable Oui
PLATEFORMES :
├── Hugging Face Datasets (50K+)
├── Kaggle (compétitions)
├── UCI ML Repository (classiques)
└── Papers With Code (benchmarks)
PAR DOMAINE :
Vision :
├── Classification : ImageNet, CIFAR, MNIST
├── Détection : COCO, Pascal VOC
└── Segmentation : ADE20K, Cityscapes
NLP :
├── Classification : IMDb, AG News
├── QA : SQuAD, Natural Questions
├── Français : Allociné, FQuAD, FLUE
Audio :
├── Speech : LibriSpeech, Common Voice
└── Français : Common Voice FR, ESTER
Tabulaire :
├── Classiques : Iris, Titanic, Boston
└── Kaggle : House Prices, Credit Fraud
BENCHMARKS :
├── NLP : GLUE, SuperGLUE, MMLU
├── Vision : ImageNet, COCO
└── LLM : HumanEval, MT-Bench