Datascience pour les managers

Partie 2
Chapitre 4 sur 7
Partie 2 – Appliquer la data science en marketing

Le score d’appétence

Définition

Le score d’appétence est un score utilisé en marketing dans le cadre d’une démarche de scoring. Il traduit la probabilité qu’un prospect devienne un consommateur du produit ou service promu ou qu’il réponde favorablement à l’offre qui lui est faite.

Pour un produit donné ou un ensemble de produits, on étudie finement les caractéristiques des profils et des comportements des clients et prospects de l’échantillon ayant acheté ce produit ou cet ensemble de produits, afin d’identifier statistiquement le comportement typique préalable à l’achat. On extrapole ensuite ces résultats à l’ensemble d’une base clients, en attribuant un score à chaque client ou prospect en fonction de la similitude entre son comportement et le comportement typique préalable à l’achat déterminé.

Le scoring est un outil statistique d’aide à la décision qui possède une double fonction, descriptive et prédictive :

  • La fonction descriptive correspond à l’étude des caractéristiques des contacts ayant converti, et ainsi de mieux comprendre un processus d’achat
  • La fonction prédictive permet d’identifier de nouveaux clients dans le cœur de cible, sur la base d’un score calculé à partir de leur comportement

Principe

Le principe de la méthode repose sur l’étude comportementale et sociologique d’un échantillon de clients. Il s’agit d’évaluer par une note [0:1] de la probabilité d’appartenance à une classe.

Le scoring se présente comme un ensemble de méthodes ou d’outils statistiques conduisant à un classement d’individus au sein de groupes préalablement définis. Le scoring rentrent dans le cadre de la modélisation d’une variable qualitative (représentant une classe ou un groupe d’individu) en fonction de variables explicatives. Pour cela, on construit, en général, un modèle statistique en apprentissage supervisée.

Les modèles prédictifs les plus utilisés pour le scoring sont:

  • la régression logistique
  • l’analyse discriminante
  • les arbres de décisions
  • le classificateur bayésien
  • les machines à vecteurs de support ou séparateurs à vaste marge (en anglais support vector machine, SVM)

En revanche, les réseaux de neurones sont peu utilisés, car les avantages ne parviennent pas à contrebalancer leurs inconvénients.

Démarche

La mise en œuvre du score d’appétence se déroule en plusieurs étapes :

  1. Sélection de critères pertinents pour le calcul du score d’appétence
    • Choix d’une variable à expliquer ou variable cible. Idéalement, cette variable sera qualitative, généralement binaire à deux modalités. Chaque modalité définit un groupe.
    • Choix des variables explicatives. Ces variables peuvent être qualitatives ou quantitatives.
  2. Définition d’un échantillon d’apprentissage représentatif de la population. Cet échantillon sur lequel est mesuré simultanément la variable à expliquer et les variables explicatives.
  3. Construction d’un modèle statistique pour calculer le score d’appétence de chaque individu, en se basant sur les critères précédemment déterminés.
  4. Évaluation du score et de la règle de décision (taux d’erreur, sensibilité, spécificité,…) en utilisant un échantillon de test.
  5. Calcul du score d’appétence pour l’ensemble des individus de la population
  6. Ciblage des individus dans le cœur de cible grâce au score établi et à la construction d’un arbre de décision. On fixe un seuil qui permet d’affecter les individus selon le groupe auxquels ils appartiennent.

Évaluation et qualité du score

Une fois un modèle ou plusieurs modèles de scoring sont estimés, il convient d’analyser leurs performances avant de les valider pour être utilisés comme outil d’aide à la décision.
L’analyse de performances, à l’issue de la quelle une méthode de scoring est validée, permet notamment:

  • d’améliorer un modèle en comparant plusieurs de ses variantes (ajout ou
    retrait de variables explicatives, etc.)
  • de choisir entre plusieurs types de modèles candidats

L’analyse des performances d’un modèle gagnerait à être conduite sur un jeu de données différent de celui qui a été utilisé pour l’estimation. On doit en effet, lorsque cela est possible, distinguer entre l’échantillon d’apprentissage et l’échantillon de test ou de validation. Ce dernier doit nécessairement contenir les valeurs réelles de la variable cible (appartenance aux groupes). D’une manière générale, il s’agit de comparer entre les valeurs réelles de la variable cible avec celles prédites par le modèle.

Les concepts de base qui permettent d’estimer la qualité d’un score sont la sensibilité (ou sélectivité) et la spécificité. La sensibilité d’un test mesure sa capacité à donner un résultat positif lorsqu’une hypothèse est vérifiée. Elle s’oppose à la spécificité, qui mesure la capacité d’un test à donner un résultat négatif lorsque l’hypothèse n’est pas vérifiée.

appétence non appétence
test positif VP FP
test négatif VN FV

 

Le tableau ci-dessus montre les résultats possibles lors de la mesure de la validité intrinsèque d’un test. Dans ce tableau, on observe que :

    • VP (vrais positifs) représente le nombre d’individus appétents  avec un test positif,
    • FP (faux positifs) représente le nombre d’individus non appétents avec un test positif,
    • FN (faux négatifs) représente le nombre d’individus appétents avec un test négatif,
    • VN (vrais négatifs) représente le nombre d’individus non appétents avec un test négatif.
  • le coefficient de spécificité est la probabilité de bien détecter un négatif ou la
    proportion des négatifs dans la population pouvant être détecté par la méthode.
  • le coefficient de sensibilité est la probabilité de bien détecter un positif ou la
    proportion des positifs dans la population pouvant être détecté par la méthode.

Plusieurs outils de mesure de performance sont proposés par la littérature statistique. On présente dans ce qui suit trois de ces outils qui sont les plus connus :

  • la matrice de confusion
  • la courbe ROC
  • la courbe LIFT.

Portée et limites du scoring

En pratique, on pourrait utiliser d’autres méthodes plus ou moins subjectives pour apprécier la probabilité d’appartenance d’un individu à un groupe donné. Par rapport à ces méthodes, les techniques statistiques de scoring présentent un certain nombre d’avantages et inconvénients dont les principaux sont présentés ci après.

Avantages

Par rapport à un système de notation subjective, le scoring statistique
présente les avantages suivants :

  • Evaluation quantitative de la probabilité d’appartenance ce qui permet
    d’ordonner les individus.
  • Caractère immuable (fixe) des résultats
  • Cohérence des résultats : deux individus ayant les mêmes caractéristiques
    auront le même score.
  • Caractère explicite : méthodologie d’évaluation pouvant être clairement
    présentée.
  • Prise en compte de plusieurs facteurs de risque.
  • Aptitude d’être testée au préalable
  • Explication du lien existant entre le niveau de risque et les facteurs de risque
  • Aptitude à donner lieu à des calculs sur les effets sur la rentabilité de
    l’entreprise.

Inconvénients

Les méthodes statistiques de scoring soufrent néanmoins de quelques insuffisances dont entre autres :

  • La décision pouvant être prise suite à l’utilisation des méthodes de scoring est
    basée sur une probabilité et non sur une certitude.
  • Les méthodes statistiques de scoring supposent comme toute autre méthode
    statistique que le futur est identique au passé.
  • L’appétence est expliquée par les seules variables disponibles
  • Il existe un vrai problème de biais de sélection dans l’élaboration d’une
    méthode de scoring.
Table des matières

Partie 1 – Comprendre la data science

Partie 2 – Appliquer la data science en marketing

Partie 3 – Déployer un projet de data science

Partie 4 – Utiliser l’intelligence artificielle (machine learning)

Partie 5 – Utiliser des techniques d’apprentissage supervisé

Partie 6 – Utiliser des techniques d’apprentissage non supervisé

Partie 7 – Pour aller plus loin en datascience