Want to make creations as awesome as this one?

Transcript

Can you predict which customer groups are worth investing in?

Predicting Profitable Customer Segments

bit.ly/3uROUmP

CHATTELARD Vincent, LEBON Arthur, LEFEBVRE Clement

Index

1. Contexte et motivation

2. Problèmatique

3. Objectifs

4. Méthodologie

5. Améliorations et Conclusion

D. Analyse des résultats

C. Modélisation prédictive

B. Analyse descriptive des données

A. Analyse des résultats

Contexte et motivation

1

La Data Science dans le marketing moderne

Vente de détail en ligne

Groupe client 1

Groupe client 2

Problèmatique

2

Sur lequel compter ?

Groupe client 1

Groupe client 2

?

?

Pouvez-vous construire un classificateur d'apprentissage automatique qui prédit avec précision lequel des deux groupes sera le plus rentable ?

Problématique:

Objectifs

3

  • DATA Exploration
  • DATA Wrangling
  • DATA Cleaning
  • DATA Visualisation

Objectifs du projet:


  • Feature Engineering
  • Mise en place des modèles de machines learning
  • Choisir un modèle prédictif optimal
  • Déterminer le plus rentable des deux groupes clients

Méthodologie

4


4. Analyse des résultats

3. Modélisation prédictive


1.Description des données


2. Analyse descriptive des données

Parcours de la donnée

1. Description de la donnée

Dataset comparatif des deux groupes

1. Description de la donnée

Dataset comparatif des deux groupes

Caractéristiques du 1er Groupe

1. Description de la donnée

Dataset comparatif des deux groupes

Caractéristiques du 1er Groupe

Caractéristiques du 2ème Groupe

1. Description de la donnée

Dataset comparatif des deux groupes

comparaison des deux groupes

1. Description de la donnée

Dataset comparatif des deux groupes

Colonne de rentabilité

comparaison des deux groupes

2. Analyse descriptive des données

influence de c_1 sur g1_1 par rapport à la métrique target

2. Analyse descriptive des données

2. Analyse descriptive des données

Matrice de corrélation

2. Analyse descriptive des données

Distribution de la donnée

3. Modélisation prédictive:

Les modèles utilisés

KNN

Classification multiclass (utile avec donnée à plusieurs sorties)

SVM

Classification non-linéaire grâce au kernel
(utile avec jeu de donnée hétérogène)

Random Forest

entraîné sur différentes parties du dataset (utile avec données non connues)

4. Analyse des résultats

ConfusionMatrix()

SVM, overfitting

Random Forest

knn, overfitting

Améliorations et Conclusion

5

Analyse philosophique sur le sens des métriques

Essayer plus de modèles de Classification (AUC-ROC , F1 score, recall, ...)

Etude univariable et multivaraiable

Améliorer le Feature engineering

Améliorations

Merci de votre écoute, avez-vous des questions ?