← Retour au portfolio

Préparation & Intégration de données — Olist

Dataset e-commerce brésilien · 119 143 commandes · Python / Pandas

IUT Grand Ouest Normandie · BUT Science des Données · 2024-2025
119 143
Commandes totales
40
Variables analysées
7
Tables exportées
4.09 / 5
Note moyenne clients
Distribution des achats par mois
Nombre de commandes passées chaque mois — données Olist 2017-2018
Barres = nombre de commandes  · 
Courbe de tendance

Source : sd2_data_olist_project.csv · Kaggle

Répartition des modes de paiement
Part de chaque type de paiement dans les 119 143 transactions
Montant moyen par transaction selon le mode de paiement
En dollars américains ($) — taux de conversion appliqué (1 R$ ≈ 0.20 $)
Carte de crédit
$32.66
Virement bancaire
$29.00
Carte de débit
$28.52
Bon d'achat
$13.14
Top 5 catégories les mieux notées par les clients
Note moyenne sur 5 — 1ère position en rouge, autres en bleu
Mode enfantine
5.00 ★
CD / DVD musique
4.64 ★
Livres d'intérêt
4.57 ★
Fleurs
4.51 ★
Arts
4.48 ★
Répartition des notes clients
Distribution des notes de satisfaction de 1 à 5 étoiles
5 étoiles ★★★★★
57.7%
4 étoiles ★★★★
19.3%
3 étoiles ★★★
8.1%
2 étoiles ★★
5.0%
1 étoile ★
11.5%
Pipeline de préparation des données
Étapes du traitement Python / Pandas sur le dataset Olist
1
Import CSV
sd2_data_olist_project.csv · 119 143 lignes · 40 colonnes · séparateur ;
2
Nettoyage
Suppression des doublons, valeurs nulles, conversion des colonnes de dates en datetime
3
Transformation
Calcul de delivery_delay (délai de livraison), purchase_month (mois d'achat), Total Amount (prix + frais)
4
Analyse exploratoire
Visualisations Matplotlib : notes clients, commandes par mois, délais par état, catégories populaires
5
Modélisation & Export
Décomposition en 7 tables CSV normalisées : orders, customers, products, sellers, payments, reviews, order_items