Le dédoublage

INTRODUCTION

Ce document traite de l'utilisation des réseaux de neurone pour la résolution de problèmes de marketing. On va traiter du problème de la suppression des doublons dans les fichiers de télémarketing. Ceci s'est fait en plusieurs étapes :

Création d'un fichier d'exemples par un dédoublage manuel
Création de procédures permettant de créer des données chiffrées des comparaisons de deux fiches.
Séparation de ces données en données non utilisées, base d'apprentissage et base de validation.
Choix du réseau à utiliser.
Création de l'outil d'apprentissage.
Apprentissage et calcul des poids.
Estimation de l'erreur et comparaison aux résultas des méthodes classiques.
Conclusion

LE CADRE D’UTILISATION DES FICHIERS

Ce problème se situe dans le cadre des opérations de marketing direct, en particulier pour le cas étudié des campagnes téléphoniques auprès d’entreprises ou d’administrations. La prospection se fait donc par téléphone à partir d’adresses achetées auprès d’un provider (fournisseur) de fichier. Les commandes auprès de ces fournisseurs correspondent à des requêtes du type :

toutes les mairies de moins de 5000 habitants ;
toutes les entreprises de conseil (intervalle de code NAF)…

LES RAISONS DU DEDOUBLAGE

Quand les téléacteurs opèrent, il est très gênant à la fois pour eux et pour l’image de sérieux de l’entreprise qu’ils représentent :

de rappeler deux fois la même société au cours d’une opération ;
de proposer à un prospect un produit qu’il a déjà chez nous
(en fait ce qui correspond à traiter un client comme si on ne le connaissait pas) ;
de contacter des gens ayant dit que justement ils ne voulaient plus jamais être contacté par la société.

Il s’agit donc de repérer dans le fichier que l’on vient d’acheter
s'il n’y a pas une fiche en double ;
si aucune société n’est déjà parmi nos clients du produit que l’on cherche à promouvoir ;
si aucune société ne fait partie d’un fichier stop pub…

LES RAISONS DE L’UTILISATION DES RESEAUX DE NEURONES

LA METHODE UTILISEE JUSQU’A PRESENT

Elle a consisté à l’aide d’un tableur à faire des tris permettant de faire ressortir les numéros de téléphone identiques. Pour affiner les tests on utilise des champs composés d’une partie de la raison sociale associée au code postal. Ceci est impératif dans les comparaisons avec les fichiers de clients ou stop pub où il n’y a pas forcément de téléphone exploitable.

Evolution de la méthode dans le temps (travail sous EXCEL) :

au début toutes les données (fiches et repoussoir) étaient regroupées sur une même feuille de calcul et on triait par rapport à un champ donné. Enfin chaque enregistrement était comparé à son précédent et s’ils étaient égaux une fiche était supprimée.

Une avancée a été faite en utilisant les fonctions de recherche d’EXCEL : il n’a plus été besoin de fusionner dans une même feuille de calcul les bases à prospecter et les repoussoirs cela est possible grâce à la relative rapidité des P.C. actuels. En effet dans le premier cas le nombre de comparaison est de l’ordre de N dans le second il est de l’ordre de N*N/2.

LES LIMITES DE LA METHODE UTILISEE JUSQU’A PRESENT

LES LIMITES PRATIQUES

Cette méthode marche et a fait ses preuves et si certaines comparaisons d’un fichier à un autre sont lents sur un Macintosh de bureau datant de trois ans je l’utilise dans le cadre professionnel cinq à six fois par mois et, sauf dans les cas complexes ou pour les fichiers de plus de 6000 enregistrements c’est la remise en forme des fichiers avant dédoublage qui met le plus de temps. Mais la manière de procéder est différente à chaque fois et peut difficilement être programmée :

pour un fichier de mairies le code postal suffirait à départager les doublons alors que les téléphones ont souvent des numéros différents dans une grande administration ; de plus un code composé d’une partie de la raison sociale et du code postal peut être différent il suffit pour cela d’une simple faute de frappe dans la raison sociale. Dans ce cas précis, on risque donc d’oublier des doublons.

le problème inverse peut se poser pour les collèges ou lycées : on a dit plus haut qu’un fichier de clients ou stop pub comportait des lignes sans numéro de téléphone on utilise généralement dans ce cas là un composé de 7 caractères de la raison sociale plus le code postal. Comme les collèges ont souvent une raison sociale du type : “COLLEGE «NOM DU COLLEGE»“ le champ formé va devenir <COLLEGE><06000>. Il suffit alors qu’il y ait un collège de Nice qui soit client pour que tous les prospects soient éjectés à tort de la base à prospecter.

certains doublons dans les entreprises et les administrations sont très difficiles à repérer <SA DUPONT> et <DUPONT SA> ; <COLLEGE AUGUSTE BLANQUI> et <CES AUGUSTE BLANQUI> ; les codes postaux sont aussi souvent différents sur les trois derniers chiffres quand il y a l’adresse normale et l’adresse avec une boîte postale ; les numéros de téléphone peuvent être différents notamment sur les quatre derniers chiffres dans les grandes structures.

En fait c’est chaque fois soumis à mon appréciation il faut s’adapter, sentir les fichiers : ceux qui sont propres et qu’un seul test sur le téléphone suffira à dépoussiérer et ceux qui demanderont plusieurs passages pour à la fin obtenir un résultat qui aura supprimé des fiches utiles et laissé des doublons.

L’INTERET D’UNE NOUVELLE METHODE

Automatiser les tests : possibilité de traiter de plus grands fichiers en utilisant du temps différé.
À partir d’un faisceau d’indices de repousser ou non une fiche
donner un résultat probabiliste

la méthode utilisée :
comparaison des champs et à l’intérieur les mots pour donner une note à chaque comparaison
ce qui permettra de faire des comparaisons avec des champs non utilisés jusqu’à présent comme l’adresse

créer un réseau qui fera la classification entre doublons et non doublons
donner une réponse probabiliste qui permettra de classer les fiches en trois catégories : à prospecter de suite ; à jeter à revérifier

Utilité des réseaux de neurones par rapport aux autres méthodes statistiques :

la rapidité des RN une fois le calcul des poids effectué est déterminant dans le choix de cette méthode. On a vu que l’utilité d’une nouvelle méthode est d’automatiser les tests pour pouvoir traiter de plus grands fichiers ; mais on sait aussi que le nombre de comparaisons augmente en fonction du carré du nombre d’enregistrements un fichier 5 fois plus grand que les données actuelles demandera donc 25 fois plus à la machine d’où l’intérêt d’un classifieur rapide.

Rappel des ordres de grandeur pour un dédoublage d’un fichier à N champs par rapport à lui-même et par rapport à un repoussoir à N1 champs :

dans la première version sous Excel, il y avait au maximum :
3*(N+N1) comparaisons + trois tris de N+N1 lignes

dans la deuxième version où tous les enregistrements du repoussoir sont comparés au fichier source :
3*(N + N*N1) comparaisons + trois tris de N lignes