Recherche

La qualité des données au coeur des projets de data mining

Publié par le

Quelles sont les données réellement utilisables dans ma base de donnée marketing ? Telle est la question que tout un chacun devrait se poser avant d'initier des analyses data mining.

  • Imprimer


«La qualité des données est primordiale, si l'on ne gère pas ce problème en amont de l'analyse, on ne peut pas la structurer, capitaliser dessus et en tirer les enseignements », souligne Arnaud Caplier, Dg de Consodata. Cette qualité concerne dans un premier temps l'identification correcte d'un client dans la base et donc son nettoyage afin d'éviter les NPAI et doublons. « Une propreté nécessaire, mais qui coûte cher », précise Arnaud Caplier. Deuxième phase importante : l'audit des données qui permettra de vérifier quelles sont les données disponibles en interne, décider de leur enrichissement soit en récupérant d'autres données des systèmes de gestions commerciales, opérationnels et transactionnels, soit encore en faisant appel à des sociétés spécialisées dans ce domaine comme Claritas ou Consodata. Dernière phase de préparation, l'organisation des données dans une base étude et l'application de règles de gestions cohérentes (écrasement de donnée, remplacement par une autre...) afin de pouvoir par la suite créer les bons modèles d'analyse. « La préparation des données dans une base étude représente 80 % du temps d'un projet de data mining », souligne Isabelle Le Bras, responsable marché data mining chez l'éditeur SAS. Il faudra ainsi se demander quelles sont les valeurs extrêmes d'un échantillon, quelles sont les données manquantes et la manière de les remplacer, découper les variables qualitatives en variables quantitatives... Ultime étape avant le lancement d'une analyse, la modélisation permet d'étudier un phénomène de comportement. «Il s'agit de s'attacher à trouver le meilleur modèle mathématique pour modéliser, retracer le comportement d'un client », assure Isabelle le Bras. Pour pouvoir réaliser de l'analyse de comportement prédictive, il ne faudra pas hésiter à mettre différents modèles en compétition grâce, par exemple, à la formule en nuage de points. «A chaque problématique correspond, en fait, un modèle, une analyse. Selon que l'on cherche à analyser des comportements frauduleux, des comportements d'achat ou de la segmentation clients, on aura autant de modèles d'analyse différents », commente Isabelle Le Bras.

Quelle architecture pour le stockage des données ?


Les experts semblent s'entendrent à peu près sur le choix d'une architecture de stockage des données clients. « Il est aujourd'hui plus facile de résoudre le problème de la qualité des données avec la mise en oeuvre d'un datawarehouse qu'avec la multiplication de datamarts spécialisés », explique Eric Falque (Bearing Point). Pour apporter de la qualité de résultat au processus de data mining, NCR n'hésite pas non plus à prôner la centralisation de toutes les données marketing et leurs intégrations au sein d'un entrepôt. « L'approche datamart est dangereuse dans le sens où elle demande au marketer de rapprocher des données qui ne sont pas forcément cohérentes entre elles. », soutient Michel Bruley (Teradata). « C'est plutôt en termes de processus que se joue la différence. Il sera certes plus long de créer une base étude à partir de systèmes opérationnels pour faire du data mining, que de partir d'un datawarehouse, mais il faudra quand même industrialiser le passage entre le datawarehouse et le datamart étude », précise Isabelle Le Bras. Très pratique en théorie, le datawarehouse n'est cependant pas la solution miracle. Et bon nombre d'entreprises qui ont bâti leurs systèmes d'information marketing sur des bases éparses, s'en passent très bien. «Il est tout à fait possible de gérer plusieurs bases de données réparties au sein du système d'information, du moment que l'on s'attache à organiser les données autour d'un référentiel unique », souligne Arnaud Caplier. Quant à l'idée reçue qui voudrait que le data mining ne s'applique qu'à de grands volumes de données, elle est totalement erronée, comme le précise Eric Falque : «En fait peu importe la masse de données, car les opérations de data mining se réalisent toujours au sein d'une base étude à partir d'extractions. Dans une base de 25 millions de clients, on peut très bien faire une extraction de 2 000 clients pour réaliser un score ou une segmentation ».

Le data mining : une affaire d'expert ?


Une entreprise peut adopter deux types de démarches en termes d'analyses data mining. Celle qui fait du CRM analytique un véritable axe stratégique souhaitera effectuer des scores et des études comportementales évoluées. Elle aura donc besoin, en interne, d'un expert en statistique. Et puis, il y a le data mining de tous les jours qui ne nécessite pas forcément des scores très poussés et peut s'effectuer avec des outils "light" du marché. « Ces analyses quotidiennes peuvent être réalisées par un utilisateur marketing qui aurait une sensibilité de data miner sans pour autant être un expert ou un statisticien avéré », explique Françoise Fogelman (Business & Décision). Michel Bruley (Teradata) est beaucoup plus catégorique. « Le data mining nécessite trois types de compétences bien distincte, un informaticien pour l'extraction et le travail sur les données, un data miner pour l'analyse des données et un marketer pour les interpréter. Seule la compétence de dataminer n'est pas indispensable à plein temps et pourrait donc être sous-traitée. » Mais en fait, la question qu'il convient de se poser est : faut-il intégrer des équipes d'analystes au sein des départements marketing, commer-ciaux ou des études, ou bien est-il préférable, lorsque l'on mène des études stratégiques, d'externaliser ces compétences ? « Dès lors qu'une entreprise a une stratégie orientée client, il est important de capitaliser sur des compétences de CRM analytique », estime pour sa part Eric Falque. Reste que beaucoup d'entreprises notam-ment, du secteur de la grande distribution, face aux problématiques de compétences en analyses et productions de statistiques, décident d'externaliser leurs études. En effet, au-delà des techniques statistiques simples de régression et d'arbres de décision, dès que l'on aborde les réseaux neuronaux et les modélisations non paramétriques, les compétences sur le marché se font beaucoup plus rares.

Pourquoi et comment analyser son fichier client


Pourquoi analyser son fichier client ? « Parce que le marketing one-to-one et la fidélisation commencent par la bonne connaissance de ses clients. Comment ? Par le data mining qui permet de cerner les différents types de comportements et besoins des clients et augmentera la valeur du capital client », explique Gilles Hustaix, P-dg de Décisia. « Quand on oeuvre sur des logiques de segmentation, on n'a pas forcément besoin de faire du data mining. Il suffit de travailler sur 3 ou 4 variables clés et discriminantes qui permettront d'affecter un client sur un segment, comme c'est le cas dans la banque, la distribution ou l'automobile », explique de son côté Arnaud Caplier (Consodata). « Chez Renault, les marketers avaient l'habitude de travailler sur quelques variables clés, le nombre de véhicules achetés historiquement, le kilométrage annuel, pour monter leurs programmes marketing », ajoute-t-il. Des segmentations sur la valeur d'un client et son niveau de rentabilité requièrent ainsi des analyses quantitatives, qui ne sont pas d'ordre statistique mais financières. Nul besoin dans ce cas d'avoir recours au data mining. « Il me paraît plus d'impor-tant d'animer ses cibles commerciale-ment que de passer trop de temps à affiner sa segmentation client. Par contre, si l'on souhaite sortir des scores plus poussés dans le cadre d'une campagne d'acquisition et travailler sur des variables multiples, faire des analyses comportementales prédictives, de logique de proximité produit, d'appétence sur un produit, de risque de churn... le data mining trouve sa raison d'être », précise Arnaud Caplier.

Catherine-Nora China

Data Marketing : collecter la bonne donnée

Data Marketing : collecter la bonne donnée

Data Marketing : collecter la bonne donnée Data Marketing : collecter la bonne donnée

Des millions de données on et off line sont à la disposition des marketeurs et leur collecte est devenu un enjeu majeur pour les entreprises. [...]

[Tribune] Data driven: il reste du chemin à faire!

[Tribune] Data driven: il reste du chemin à faire!

[Tribune] Data driven: il reste du chemin à faire!

Si les marques brandissent bien haut l'étendard de la data, toutes ne la gèrent pas de façon optimale, loin s'en faut. Ainsi, 62,5% des entreprises [...]

[Tribune] 6 questions essentielles sur le data mining

[Tribune] 6 questions essentielles sur le data mining

[Tribune] 6 questions essentielles sur le data mining

Le "QQOQCCP" du data mining : telle est la méthode proposée par Philippe Nanopoulos, de Base Plus, afin d'appréhender tous les enjeux de l'extraction [...]

Big Data, le modèle GAFA et sa déclinaison marketing

Big Data, le modèle GAFA et sa déclinaison marketing

Big Data, le modèle GAFA et sa déclinaison marketing

L’apparition des besoins croissants d’analytics pour traiter de grandes quantités de données est apparue avec les grands noms de la tech. Google [...]

La data, nouvelle alliée du luxe

La data, nouvelle alliée du luxe

La data, nouvelle alliée du luxe

Grâce à la donnée, le luxe allie à ses métiers traditionnels des services d'un nouveau genre. La data serait-elle le nouvel ADN des marques [...]

Air France-KLM partage ses données avec les start-up

Air France-KLM partage ses données avec les start-up

Air France-KLM partage ses données avec les start-up

Alors que la loi Macron oblige les entreprises de transport à ouvrir leurs données, Air France-KLM a décidé de sauter le pas en créant un portail [...]

Lumière sur… les 6V du Big Data

Lumière sur… les 6V du Big Data

Lumière sur… les 6V du Big Data

Avoir une Data permet aux entreprises reposant sur une vue classique du marché (basée sur l’intuition) de migrer vers une analyse s’appuyant [...]