Réaliser un score de A à Z
20/02/2002
© Inbox
Stéphane Amarsy
1
Sommaire Inbox La problématique La découverte de la problématique La découverte des données La méthodologie Les variables explicatives simples Les variables explicatives composées La modélisation Les résultats Le choix du modèle L’utilisation 20/02/2002
© Inbox
Stéphane Amarsy
2
Inbox De l ’acquisition à l ’efficacité économique de la relation client
L ’acquisition de clients Conseils (off & on line) Régie (on line) Plate-forme emailing
Le Système d'Information marketing Audit Mise en place
Le data mining & web mining Études Conseils
20/02/2002
© Inbox
Stéphane Amarsy
3
La problématique Un organisme financier souhaite commercialiser une nouvelle SICAV auprès de ses clients Une action de test a été menée sur un groupe d’agence représentatif de façon à construire une campagne de sollicitation économiquement optimale Nous disposons de 20 000 personnes sollicitées dont 5 000 ont acheté le produit proposé
Le travail consiste à identifier les personnes ayant le plus de chance d’acheter ce produit et le montant qu’ils vont souscrire Création de trafic en agence pour les grands montants et souscription à distance pour les autres 20/02/2002
© Inbox
Stéphane Amarsy
4
La découverte de la problématique Pouvoir répondre aux questions suivantes Données disponibles ? Biais dans le comportement ? Cadre législatif ? Histoire du produit/service ? Contexte concurrentiel ? Mise en œuvre ? Mode de commercialisation ? … 20/02/2002
© Inbox
Stéphane Amarsy
5
La découverte des données Variable à expliquer (Y)
Signification Statistiques de base (ex % de souscripteurs)
Variable explicative par variable explicative Signification Statistiques de base
Distribution Moyenne, écart type, … Valeurs manquantes
Création à partir de la base de données d’un fichier d’étude
Création d’un enregistrement par individu statistique (le client dans notre cas) Création d’un fichier de validation (~ 30 %) Statistiques de base
20/02/2002
© Inbox
Stéphane Amarsy
6
La méthodologie Fort de la connaissance de la problématique et des données Choix de la méthodologie Segmentation / Modélisation / … Étude basée sur La détention : biais dû à l’influence de la détention dans le comportement et à l’exposition à l’offre L’achat : biais dû à l’exposition à l’offre L’achat suite à une sollicitation : le plus pur à condition que les individus sollicités soient représentatifs
Dans notre cas, on explique l’achat compte tenu du passé Construction d’un score pour l’appétence Construction d’un score pour le montant 20/02/2002
© Inbox
Stéphane Amarsy
7
La méthodologie Appétence++
Appétence
N (6) mois
Appétence N (6) mois
Variables Variables explicatives explicatives
o n p K (3) mois
K (3) mois
Souscription
Souscription --
Montant --
N (6) mois Montant Montant
N (6) mois Variables explicatives Variables explicatives
20/02/2002
© Inbox
Stéphane Amarsy
K (3) ++ mois K (3) mois
Montant
Montant
8
Les variables explicatives simples Les variables qualitatives (ex PCS, sexe, …) Les valeurs manquantes L’agrégation de modalités Vérification du pouvoir explicatif par un tableau croisé
20/02/2002
© Inbox
Stéphane Amarsy
9
Les variables explicatives simples
Situation familiale
20/02/2002
Celibataire Effectif % ligne % colonne Concubin Effectif % ligne % colonne Marié Effectif % ligne % colonne Divorcé Effectif % ligne % colonne Veuf Effectif % ligne % colonne Total Effectif % ligne % colonne
Variable à expliquer Souscripteurs Non souscripteurs Total 250 750 1000 25,00 75,00 100,00 5,00 5,00 5,00 550 1500 2050 26,83 73,17 100,00 11,00 10,00 10,25 3500 7250 10750 32,56 67,44 100,00 70,00 48,33 53,75 450 3500 3950 11,39 88,61 100,00 9,00 23,33 19,75 250 2000 2250 11,11 88,89 100,00 5,00 13,33 11,25 5000 15000 20000 25,00 75,00 100,00 100,00 100,00 100,00
© Inbox
Stéphane Amarsy
10
Les variables explicatives simples Les variables quantitatives (ex age, revenus, …)
Épargne
Valeurs manquantes et individus « aberrants » Forme de la liaison
Age
Corrélation (si liaison linéaire) Découpage en n classes et croisement avec la variable à expliquer
Transformation Fonction croissante et continu (log) Qualitative 20/02/2002
© Inbox
Stéphane Amarsy
11
Les variables explicatives simples Les variables quantitatives (ex age, revenus, …) Valeurs manquantes et individus « aberrants » Forme de la liaison
Revenus
Corrélation (si liaison linéaire) Découpage en n classes et croisement avec la variable à expliquer
Transformation
Age
Fonction croissante et continu (log) Qualitative 20/02/2002
© Inbox
Stéphane Amarsy
12
Les variables explicatives simples Les variables quantitatives (ex age, revenus, …) Valeurs manquantes et individus « aberrants » Forme de la liaison
Revenu
Corrélation (si liaison linéaire) Découpage en n classes et croisement avec la variable à expliquer
Age
Transformation Fonction croissante et continu (log) Qualitative 20/02/2002
© Inbox
Stéphane Amarsy
13
Les variables explicatives simples Les variables quantitatives (ex age, revenus, …) Valeurs manquantes et individus « aberrants » Forme de la liaison
Transformation Fonction croissante et continu (log) Qualitative 20/02/2002
© Inbox
40
% de souscripteurs
Corrélation (si liaison linéaire) Découpage en n classes et croisement avec la variable à expliquer
35 30 25 20 15 10 5 0 <25 ans
<45 ans
Stéphane Amarsy
<55 ans
< 65 ans
14
>=65 ans
Les variables explicatives composées Le principe : faire de 2 (ou plus) variables, une variable apportant du pouvoir explicatif Statistiquement Comportement Logique
Comment faire ? Les combiner numériquement entre elles : +, -, /, *, %, … Épargne = somme des produits d’épargne Taux d’endettement = charges / revenus
Les combiner qualitativement entre elles Transformation en variables qualitatives Croisement des variables Regroupement de case à partir de la répartition de la variable à expliquer en prenant en compte la logique comportementale et la robustesse statistique 20/02/2002
© Inbox
Stéphane Amarsy
15
Les variables explicatives composées
Age
< 25 ans 25 à 40 ans 40 à 55 ans 55 à 65 ans 65 ans et +
<1 K€ 4 8 6 2 1
1 à 4 K€ 8 20 16 12 5
Epargne 4 à 8 K€ 20 25 22 18 6
8 à 25 K€ 35 40 33 22 18
150 K€ et + 28 37 30 19 15 20%
% de souscripteurs
20/02/2002
© Inbox
Stéphane Amarsy
16
Les variables explicatives composées
% de souscripteurs
40 35 30
35-40
25
30-35 25-30
20
20-25
15
15-20 10-15
10
5-10 150 K€ et +
5 0
4 à 8 K€
65 ans et + 55 à 65 ans 40 à 55 ans 25 à 40 ans
20/02/2002
0-5
© Inbox
<1 K€ < 25 ans
Stéphane Amarsy
17
Les variables explicatives composées 65 ans et + 55 à 65 ans 40 à 55 ans
30-40 20-30 10-20
25 à 40 ans
<1 K€
20/02/2002
1à4 K€
0-10
< 25 ans 4 à 8 8 à 25 150 K€ K€ K€ et + © Inbox
Stéphane Amarsy
18
Les variables explicatives composées
Age
< 25 ans 25 à 40 ans 40 à 55 ans 55 à 65 ans 65 ans et +
<1 K€ 4 8 6 2 1
1 à 4 K€ 8 20 16 14 5
Epargne 4 à 8 K€ 20 25 22 18 6
8 à 25 K€ 35 40 33 22 18
150 K€ et + 30 37 30 19 15 20%
5%
20/02/2002
22 %
16 %
© Inbox
Stéphane Amarsy
36%
19
La modélisation Le choix des variables explicatives Les plus explicatives « non corrélées » Discrétiser les variables qualitatives ? Penser aux effets des variables quantitatives (simple si linéaire, carré si parabolique, …) Épargne
Revenus
Épargne=b*Age+c Revenus=a*Age2+b*Age+c Age 20/02/2002
© Inbox
Stéphane Amarsy
Age
20
La modélisation Le choix de la technique de modélisation Choisir la ou les plus appropriée(s) Données Mise en œuvre Compréhension …
Les techniques Arbres de segmentation Modèles mathématiques (linéaire, logistique, …) Réseaux de neurones Algorithmes génétiques … 20/02/2002
© Inbox
Stéphane Amarsy
21
La modélisation La modélisation logistique Modélisation de la probabilité d’être 1 eX P[y=1]=F(variables explicatives) F(X)= X 1 + e Choix de la méthode Forward Backward Stepwise
Itération jusqu’à l’obtention du modèle Variables significatives Variables cohérentes Estimateurs logiques
Exemple P[Y=1]=F(0,2*Age-0.0003*Revenus+1.203 (si sexe=F)+0 (si sexe=M) …) 20/02/2002
© Inbox
Stéphane Amarsy
22
Les résultats Découpage en 10 classes d’effectif égal et vérification du taux de souscription Échantillon de construction Échantillon de validation
20/02/2002
© Inbox
Stéphane Amarsy
23
Les résultats 70 % Y=1
60
Construction Validation Moyenne
50 40 30 20 10 0 1 20/02/2002
2
3 © Inbox
4
5
6
7
Classe de score Stéphane Amarsy
8
9
10 24
Les résultats La courbe de concentration 100 % Y=1
90 80 70 60 50
Construction Hasard Validation
40 30 20 10 0 10
9
8
7
6
5
4
3
2
1
Classe de score 20/02/2002
© Inbox
Stéphane Amarsy
25
Le choix du modèle Robustesse Logique Simplicité Capacité à être exploité Marketing/commercial Informatique
Pouvoir explicatif 20/02/2002
© Inbox
Stéphane Amarsy
26
L’utilisation 100 % Y=1
90 80 70
30 % de la population, 78 % des répondants, 41 % de souscription
60 50
Construction Hasard Validation
40 30 20 10 0 10
9
8
7
6
5
4
3
2
1
Classe de score
Budget 20/02/2002
© Inbox
Stéphane Amarsy
Chiffre d’Affaires Rentabilité Coûts
27