Want to make creations as awesome as this one?

Transcript


PREDICTION DE REVENUS

SOUTENANCE DU PROJET 7

PARCOURS DATA ANALYSTE

TRAORE LASSINA JAMAL

PLAN

CONTEXTE

DONNEES & VARIABLES CLES

TRAITEMENTS &PREPROCESSING

MISSIONS

STASTIQUE DESCRIPTIVE

PROBABILITE CONDITIONNELLE

STATISTIQUE INFERENTIELLE

CONCLUSION

1

1

CONTEXTE

Chronique des inegalités

2

L'inegalité en partage

  • Plusieures études servent à mesurer les ecarts entre des groupes sociaux
  • L'indice de Gini est un revelateur de ces eéudes notamment en comparant les pays
  • En France , en 2017 , les 10% des francais les plus riches detenaient 57% des richesses
  • Quand les 50% les plus pauvres ne gagnaient qu'à peine 5% de celles ci
  • Mais ces chiffres sont à mettre en relation avec d'autres facteurs comme le niveau de vie , le taux d'emploi , le taux de chomage ...

3

En tant que data analyste , il nous a été demandé de proposer un modèle permettant de determiner le revenu potentiel de futurs prospects de notre banque

DATA ANALYSTE

4

DATA SET & VARIABLES

Etudes statistiques nationales et et internationales provenant de diverses soures

Les études couvrent plusieurs années d'exploitation et peu actuelles

Les variables clés ici sont : le revenu moyen (income) , la population ( les quantiles) , le pays , l'indice de Gini , les coefficient d'elasticité et la classe de revenu des parents

Plusieurs fichiers aevc autantt d'irregularites d'enregistrement des observations

Soures mcultiples et variées

5

2

Statistique descriptive

Analyse exploratoire

Manque de données sur la Lithuanie

Valeurs aberrantes sur Fidji

Plusieurs doublons et inscriptions multiples sur certains pays


Nettoyage des données

Plusieurs pays comme la Roumanie , l'indonesie , le mexique et autre etaient enregistrés plusieurs fois

Imputation , suppession d'observations en doubles

6

Arbitrages

  1. Data set multi-sources de collecte de données
  2. Plusieurs valeurs en multiple
  3. Filtrage sur 2008 et sur une seule source de "World Bank 2016"
  4. Jonction avec le 1 er data set et
  5. Imputation des valeurs manquantes
  6. Suppression des doublons


Variable de l'indice de Gini

7

Combinaisons

  1. Association des deux approches et fichiers
  2. Extrapollation et imputations à partir des regions pour completer les pays
  3. Clonage en 500 fois la table
  4. Probabilités conditionnelles pour la classe parent sachant la classe enfant
  5. Calcul des probabilités avec ue boucle longue

Variable du Coefficient d'elasticité

8

  • Transformation en variable de logarithme
  • Selon le groupe de pays garder le meme clustering
  • Créer un échantillon de 6 pays aleatoirement (sampling)
  • Travailler avec cet échantillon pour montrer la diversité des revenus
  • Comparer à l'echelle logarithmique

Statistique descriptive

Mission 1 et 2

  • Sortir les disparités des revenus avec la courbe de Lorenz
  • Le set d'echantillon montre les inegalites entre pays riche et pays pauvres
  • L'indice de Gini varié par pays selon qu'on soit dans des groupements de High income ou Low income
  • Durant les differentes années les mêmes pays gardent le même peloton de tète ou de queue

Statistique descriptive

Mission 1 et 2

9

Disparités de revenus

10

Repartitions inegalitaires

11

Evolution de l'indice de gini

12

3

Probabilités

Probabilités conditionnelles

  1. Sur la base de coefficient d'elasticité des pays
  2. Generer des classes de revenus parents sachant les classes de revenus des enfants
  3. La mobilité intergenerationnelle s'apprecie quand le ratio est proche de 0 alors il y'a forte mobilité
  4. Proche de 1 , alors faible mobilité où on le constate dans les pays les plus inegalitaires
  5. Les pays à forte mobilité permettent un large choix à leurs descendants qui peuvent aspirer à un niveau de revenus selon leurs efforts
  6. Alors que les pays à faible mobilité , les descendants reproduisent le meme schema que leurs parents


Mobilités intergenerationnelles

14

4

Statistique inferentielle

Modelisations de donnée

ANOVA

  • Nous avons modelisé d'abord sur tous les pays et avons eu un R_2 de 0.46 et un p-value de 0
  • Ensuite , nous avons continué avec l'echantillon test et un R_2 legerement petit mais la p-value de 0
  • La statistique utilisée en analyse de la variance suit sous H0 une loi de Fisher Notre HO est le pays de l'individu n'influence pas le revenu H1 ; le facteur pays influence les revenus
  • On **rejette donc HO** au seuil de 5% puisque pvalue est plus petite.Le pays a donc une influence sur les revenus .

Modelisations avec le facteur Pays

16

  1. Test d'homoscedasticité en comparant les variances qu'elles soient constantes (test de bartlet)
  2. Test de normalité des residus suivant la loi gaussienne ( Test de Shapiro-Wilk)
  3. L'independance des variables mais contextuel
  4. Les versions logarithmiques semblent etre les plus performantes au regard du R carré qui est plus grand autour de 1 pour les deux variables de revenus et de revenus moyens . Aussi , on peut conclure que le facteur pays a bien un effet significatif sur les revenus des individus .


Conditions d'application

17

Regressions lineaires multiples

La classe parent ameliore le modele en rehaussant le R squared (coefficient de determination)

18

Conclusion

  • Avec des indicateurs statistiques , nous avons pu comprendre comment les disparités de revenus entre pays peuvent reveler des variétés de groupes sociaux
  • Une bonne étude de marché doit comporter une bome prise en compte des indicateurs tels que les classes de revenus , l'indice de gini , la mobilité integenerationnelle mais d'autres facteurs doivent etre pris en compte pour aider à la décision
  • Il faut un bon dosage combinatoire d'autres facteurs comme l'effort , le rapport ou ecart interdécile , l'ecart entre les salaires ,le taux dctivité ou la taille de la classe moyenne.


19

Thank you!

Vos questions