E-marketing.fr Le site des professionnels du marketing

Recherche
Magazine Marketing

L'analyse des données devient un outil stratégique

Publié par le

Hier encore réservée aux statisticiens, l'analyse des données est aujourd'hui à la portée des spécialistes du marketing dans les entreprises. Les outils sont devenus faciles à manier et à peu près compréhensibles pour le commun des mortels. Le procédé a gagné en vitesse. Aujourd'hui, on obtient en quarante-huit heures une segmentation qui demandait plusieurs mois auparavant.

Je m'abonne
  • Imprimer


Quelle est la place de l'analyse des données, dite "data mining", dans les stratégies des entreprises ? « Vous ne pouvez rien faire en fidélisation quand vous êtes assis sur un million d'adresses et que vous n'y voyez rien », lance Monique Remillieux, directrice marketing clients chez Boulanger. « L'analyse des données est aujourd'hui au coeur de la chaîne de la valeur client », estime Benny Ung, directeur des activités conseil chez Atos Origin. Pour lui, l'analyse se décompose en trois couches. D'abord, la capture des données par la multiplication des canaux et des contacts : centre d'appels, portails, sites de l'entreprise, courrier... Ensuite, la mémorisation et l'analyse des transactions anonymes dans l'entrepôt de données, leur transformation en informations.

Benny Ung (Atos Origin)

: "L'analyse des données est aujourd'hui au coeur de la chaîne de la valeur client."




En dernier, la valorisation de la connaissance du client par des actions. L'analyse est un instrument destiné à faire gagner du temps au consommateur en personnalisant la relation client. Et, en même temps, assurer le passage de la conquête pure de parts de marché à la fidélisation des clients. Dans la grande distribution, il est rare qu'un client réalise tous ses achats en restant fidèle à une seule marque. L'analyse est naturellement sommaire : récence, fréquence, montant, avec une segmentation suivant les montants sur une période donnée. Les tableaux de bord présentent leur évolution en valeur. Mais les masses d'informations à traiter sont colossales. Cela inspire une démarche prudente, surtout lorsque l'on prend en compte le retour sur investissement. Ici, on recherche plus souvent un gain immédiat et la sécurisation du chiffre d'affaires acquis. Les opérateurs de téléphonie mobile cherchent à connaître les valeurs actuelles et futures de leurs clients, la possibilité de proposer d'autres produits au même client et le niveau de risque de le perdre un jour.

Détecter les profils des fraudeurs


Ces quatre indicateurs sont élaborés à partir des informations disponibles dans la base, comme le type de contrat et l'usage du téléphone pour des appels entrants ou sortants, pour les mêmes numéros appelés ou pas. La base est enrichie par les croisements avec des informations en provenance des mégabases de données, telle que Claritas. « L'analyse des données peut apporter une augmentation des ventes ou bien des ventes croisées, mais aussi la détection des fraudes dans le domaine bancaire ou la VAD », estime Marie-Claude Santon, directrice des alliances chez l'éditeur SAS. Pour elle, Amazon.com est un exemple intéressant : « Avec 32 millions de clients, statistiquement, ils ont plus de chances d'avoir de la fraude. Leur système d'analyse dans la gestion de la relation client permettrait de détecter les profils des fraudeurs et de réduire les dégâts. » L'opérateur de télécommunications Sprint fait appel à l'analyse des données dans le cadre de son programme de fidélisation pour ses 23 millions de clients. Il aurait réussi à réduire le taux d'attrition en élaborant des offres ciblées pour les clients multiproduits. Les banques s'intéressent à l'analyse des données en appui des programmes de fidélisation, surtout aujourd'hui, dans le contexte d'ouverture des marchés européens. « Les banques demandent des outils simples et surtout automatisés dans toutes les analyses d'informations sur le comportement des clients, constate Eric Sallou, directeur des opérations chez Kxen. C'est important pour elles, car cela permet d'analyser les risques d'un non-remboursement rapidement. » Même démarche d'ailleurs que dans la téléphonie : le scoring doit être fait en temps réel. Les opérateurs de téléphonie mobile proposent des options et des forfaits avec un coût de commercialisation élevé par rapport au prix du produit lui-même. Ils ont aussi besoin de cibler, parfois juste au moment où le client appelle.

Nouvelle pensée statistique


« L'idéal pour un opérateur de téléphonie mobile qui dispose d'un fichier de cinq millions de clients, c'est d'arriver à reconnaître 100 000 ou 200 000 clients ciblés. Cela lui permettra de lancer ses campagnes sans trop augmenter les capacités de son centre d'appels, poursuit Eric Sallou. On nous demande des délais courts. De quelques semaines nécessaires pour l'analyse, on est passé à quelques jours. Aujourd'hui, on peut réagir aux premiers retours d'une campagne test en quarante-huit heures, pour vérifier l'adéquation du message. » Auparavant, ce type d'analyse demandait un réglage manuel des paramètres statistiques, l'extrapolation ou la recherche des valeurs manquantes car l'algorithme ne supportait pas leur absence. Aujourd'hui, la méthode SRM de minimisation des risques, issue des laboratoires universitaires américains, permet de s'affranchir de la préparation des données. « C'est une nouvelle pensée statistique !, s'exclame Eric Sallou. Cela a permis de déplacer les fonctions d'analyse des statisticiens vers des spécialistes du marketing dans les entreprises. » L'analyse des données joue un rôle important dans le MD. « Le client reçoit des e-mails, des mailings sur papier, des appels de télémarketing.

Marie-Claude Santon (SAS)

: "L'analyse des données permet de détecter des fraudes dans les ventes à distance".







Il faut optimiser la relation client multicanale dans l'optique de réduction des coûts », constate Isabelle Cinquin, responsable du département Gestion de la relation clients chez Wunderman, agence spécialisée dans des programmes de communication hors-médias. Comment repérer les clients les plus rentables, ceux qui couvrent 80 % du chiffre d'affaires ? Quels types de communication doit-on investir pour toucher ces clients ? Quelle est leur affinité par rapport à tel ou tel canal ? Il s'agit d'affiner les plans de communication en fonction de la probabilité d'achats et de fidélisation, qu'il s'agisse d'une opération de MD sur Internet ou d'un programme de points. La télévision interactive offre beaucoup d'applications en la matière, selon Isabelle Cinquin, car elle permet de capter ce que l'individu a vu. Pour parvenir à des résultats intéressants sur de forts volumes de données, il ne suffit pas d'augmenter la puissance de traitement des machines, ce qui est d'ailleurs, économiquement parlant, limité. Il faut encore que l'ensemble de la chaîne d'analyse soit adapté à un maniement facile. « Les technologies des entrepôts de données sont aujourd'hui plus légères et permettent une exploitation industrielle à faible coût », remarque Denis Gihan, directeur général de Keyrus, intégrateur des solutions SAS, Business Objects, Oracle, Kxen. Selon lui, « avec des logiciels comme Business Objects, l'utilisateur peut concevoir ses propres requêtes de données sans passer par une direction informatique, avec juste un PC de bureau et un accès web. Pourtant, les méthodes statistiques sont les mêmes qu'hier. Ce qui a changé, c'est l'utilité et la rapidité des informations et des croisements. On peut faire appel à la créativité d'un chef de produit ou d'un commercial ». En même temps, on est passé de mises à jour mensuelles des données commerciales à des fréquences hebdomadaires voire quotidiennes, comme dans les banques. Ce qui permet davantage de réactivité dans les opérations commerciales. Sur le marché de la téléphonie, on peut détecter le déclin d'un segment et réagir avec des offres très rapides. Demain, d'autres entreprises de services, comme EDF-GDF, pourraient adopter la même approche. « Aujourd'hui, nous travaillons sur des axes d'analyse grossiers avec une macro-segmentation de cinq à quinze groupes. Je pense que l'évolution va vers une segmentation plus fine et multicritère et vers des outils orientés métier », estime Denis Gihan.

Analyse textuelle


Tout le monde n'affiche pas le même optimisme. « Aujourd'hui, l'analyse se limite souvent à un tableau de bord et à quelques comptages élémentaires, sans aucune intelligence de traitement. Toute l'étude se fait dans la tête du décideur », constate Alain Morineau, directeur général de Cisia Ceresta, éditeur du logiciel Spad. Il préconise l'analyse des données non numériques et textuelles, des lettres ou encore des e-mails. Le comptage des mots et l'étude des liens pourraient apporter des informations intéressantes sur les occurrences. Est-ce que, par exemple, les mots "retard" ou "pas arrivé" apparaissent plus souvent cette semaine ? Autre domaine où l'analyse textuelle apporterait des réponses : les enquêtes de satisfaction élaborées avec des questions "fermées" pour faciliter le traitement informatique des réponses. On pourrait alors y inclure des questions "ouvertes" et relayer ensuite ces réponses aux informations plus classiques : l'âge, le sexe, l'ancienneté du client. Cependant, cette méthode ne serait applicable que sur le Web, là où les réponses sont numérisées directement à l'entrée. Partout ailleurs, il n'existe aucun moyen de lire et de reconnaître fidèlement un texte manuscrit. Et l'on imagine mal un client remplir l'imprimé de l'enquête de satisfaction à l'aide d'une machine à écrire. Cette remarque est d'ailleurs en partie valable pour le traitement du courrier entrant. Comment fonctionne un outil d'analyse de données ? L'élaboration de typologies dans une base de données fait partie des options habituellement demandées. D'abord, c'est le ciblage et la segmentation pour déterminer l'appétence. Vient ensuite la détection des associations de produits et aussi d'événements, des corrélations d'achats et de contacts.

Scores d'appétence


Parmi les méthodes, on compte la déclinaison des scores d'appétence ou de fidélité. Les mêmes algorithmes statistiques vont servir pour plusieurs objectifs. « Nous offrons deux ou trois algorithmes pour chaque problématique », explique Hervé Mignot, directeur de la division Décisionnel de SPSS. Pour la typologie, il est fait appel aux techniques des nuées dynamiques et aux réseaux neuronaux de Kohonen. Voire une combinaison des deux, pour les bases de fort volume. Dans ce procédé, la première technique utilisée sert à produire plusieurs centaines de petits groupes. Et la deuxième servira à les regrouper en cinq, six ou sept catégories naturelles, pour une meilleure homogénéité d'approche. Ici, il faut trouver une adéquation entre le nombre de typologies et les limites de la politique marketing de l'entreprise, intégrer ses intervalles pour aboutir le plus souvent à un nombre compris entre cinq et dix types. « Nous proposons différentes méthodes plutôt qu'une seule car on trouve généralement plus d'une solution à un problème », souligne Hervé Mignot. Concernant les valeurs manquantes, on considère qu'il y en a peu dans les bases de données internes provenant de la facturation.

Hervé Mignot (SPSS)

: "Différentes méthodes plutôt qu'une seule car il y a plus d'une solution pour chaque problème".







En revanche, les bases achetées ou collectées peuvent contenir des erreurs. Pour compléter les variables, on cherche à déterminer leur taux de remplissage. Ensuite, on va utiliser les valeurs moyennes ou bien construire des modèles spécifiques pour chaque valeur manquante. On peut, par exemple, reconstruire les revenus à partir de l'âge et de la géolocalisation. Pour le ciblage, il est fait appel aux techniques des arbres de décision, de la régression logistique et des réseaux neuronaux. Ces différentes techniques permettent de comparer les modèles et de choisir le plus fiable. Pour trouver les abonnés qui risquent de quitter un opérateur de téléphonie, on prend une partie de la base, on analyse le profil des désabonnements et on teste le modèle sur l'autre partie pour vérifier la correspondance. Ce genre de mesures doit aussi être pratiqué de façon régulière sur un modèle opérationnel pour tester sa fiabilité en pourcentage des classements réussis. L'actualité et la cohérence des données constituent le facteur-clé de la réussite. Il faut savoir traiter une masse d'informations stockées sur différents supports et systèmes. La qualité des données est responsable à 70 % du succès. Le reste dépend de la méthode utilisée pour l'analyse. Le marketing n'est pas une science exacte, donc les analyses statistiques font appel au couplage de plusieurs méthodes. Par exemple, la catégorisation suivie de régression et d'optimisation par un modèle neuronal. La présence des valeurs manquantes fait ici la différence avec les analyses statistiques utilisées dans la production, où toutes les valeurs sont connues et il est possible de se limiter à une seule méthode. Par exemple, dans la logistique, il s'agit de données objectives, et dans le marketing de données déclaratives, issues de la perception et de l'appréciation humaines. Ce qui impose une approche créative et empirique dans l'analyse. Aujourd'hui, les fonctions de scoring, d'estimation et de prédiction pèsent pour 80 % dans les activités d'analyse. Le reste est occupé par le regroupement des individus suivant des catégories ou des sous-ensembles de critères. Combien ai-je de segments ? Quelle est leur importance ? Existe-t-il des comportements atypiques mais significatifs ? Telles sont les questions auxquelles l'analyse des données propose des réponses. Leurs réponses ont notamment permis de découvrir l'existence de la catégorie dite "Bourgeois-Bohème". Dans la téléphonie mobile, l'analyse a permis de remarquer que l'option "International" n'était pas réservée aux hommes d'affaires mais pouvait aussi intéresser des étudiants qui partent faire un stage à l'étranger. Cette population réputée à bas revenus n'aurait pas été ciblée si l'on avait fait une sélection sur le critère des finances. D'un autre côté, elle ne sera pas intéressée par les mêmes offres que les hommes d'affaires. Désormais, on peut donc cibler cette catégorie à moindre coût marketing.

Comparer les avantages financiers


Comment estimer les avantages obtenus grâce à une analyse des données ? Chaque somme investie dans une prédiction doit aboutir à une augmentation du taux de fidélité, d'achat ou de réponse. C'est le seul critère de rentabilité d'un programme. On mesure le gain du modèle par rapport à la dispersion statistique. Par exemple, un gain de "trois" signifie qu'avec le modèle en question, pour obtenir le résultat désiré, il faudra trois fois moins de contacts que si l'on procédait à un tirage au sort. Il sera intéressant de comparer les avantages financiers escomptés avec le coût de l'outil lui-même : entre 500 000 et plusieurs millions de francs. L'analyse des données est une méthode aux applications limitées. Elle constate des événements, mais ne sait pas expliquer les leviers de satisfaction et de fidélisation à la marque, et ne donne qu'une vision parcellaire des centres d'intérêt. Cependant, cet outil se présente comme alternative intéressante pour les PME, là où il est difficile de justifier un poste de statisticien à temps plein. Il permet aussi de s'affranchir des difficultés traditionnelles de communication entre des mathématiciens et des spécialistes du marketing issus de cultures trop différentes. Le développement des contacts directs, que ce soit lors d'une vente sur le Net ou dans la gestion de la relation client sur un centre d'appels, ont apporté une nouvelle contrainte de temps. Avant, il fallait six à douze mois pour faire un modèle. Aujourd'hui, le score peut être obtenu en vingt-quatre heures. De plus, le profil du client est souvent établi en temps réel pendant le contact, avec quelques questions discriminantes. Reste à savoir quelle sera la valeur d'une prévision aussi prompte et parfois superficielle pour l'entreprise. L'analyse des données évolue aujourd'hui, d'un rôle de constat vers celui de prévision. Hier encore, on l'utilisait pour décrire les profils des clients. Aujourd'hui, on s'oriente vers les pronostics de la valeur d'un client, de la probabilité et de la fréquence d'achats ou encore de son affinité par rapport à un canal.

Comprendre le data mining


Le mot anglais "data mining" est utilisé dans l'univers marketing pour remplacer - sans raison valable d'ailleurs - l'expression française "analyse des données statistiques". Car il s'agit d'un outil d'analyse statistique traditionnelle, faisant appel à des méthodes mathématiques pour trouver des corrélations entre les éléments d'une base de données. Les mêmes méthodes et algorithmes de calcul sont utilisés pour analyser les données statistiques dans l'industrie, par exemple. Ils sont enrichis par quelques éléments dits "d'intelligence artificielle" : la logique floue, le raisonnement heuristique, les réseaux neuronaux. L'analyse des données marketing est divisé en quatre grands chapitres. 1 Catégorisation. Recherche des catégories naturelles inconnues à l'intérieur de la BDD. Elle demande beaucoup d'informations y compris les indicateurs démographiques et comportementaux. 2 Classification. Rangement des clients à l'intérieur des catégories établies plus haut, un peu comme un diagnostic médical. Utile pour les entrepôts de données. 3 Estimation et prédiction. Tentative d'évaluer certaines caractéristiques - par exemple l'endettement des clients dans une même catégorie - pour faire des estimations de la situation actuelle et future d'un client. 4 Regroupement par affinités. Recherche des événements ou des transactions simultanées, par exemple des combinaisons de ventes dans le panier de la ménagère. Le plus complexe car les possibilités sont illimitées. Il faut y trouver des combinaisons significatives. Parmi les exemples connus, on citera celui des pizzas surgelées et des grandes bouteilles de Coca. Cette classification est extraite de : Concevoir et déployer un datawarehouse de Ralph Kimball. Editions Eyrolles.

Boulanger : « Le raisonnement récence-fréquence n'est pas suffisant »


« Nous avions du mal à identifier les clients et leur valeur pour l'enseigne », témoigne Monique Remillieux, directrice marketing clients chez Boulanger. Sa base de données clients comprend plusieurs millions d'adresses. L'objectif était de comprendre le comportement et d'établir une stratégie de fidélisation. « Le raisonnement simple avec la récence - fréquence ne me paraissait pas éclairant, poursuit Monique Remillieux. Je recherchai une intelligence statistique pour une stratégie traditionnellement définie en interne. Atos Origin nous a apporté une capacité de traitement de plusieurs millions d'adresses avec jusqu'à cinquante informations par adresse. » L'offre d'Atos a été jugée suffisamment transparente, notamment grâce au fait que l'enseigne peut y implémenter de nouvelles règles de façon simple. Le prestataire a réfléchi sur le cahier des charges et a défini des bornes pour son intervention qui a été jugée satisfaisante. Le fichier de Boulanger a été segmenté en six catégories de clients. « Reste aujourd'hui à démontrer à tout le monde, en interne, tous les gains que la segmentation peut apporter pour la fidélisation », remarque Monique Remillieux, qui reproche à son prestataire un coût de prestations élevé. « 10 000 F par jour pour les "têtes pensantes" en conseil marketing, cela limite forcément les rapports. J'aurais fait plus avec eux s'ils étaient moins chers », regrette-t-elle.

Sogec : « L'intuitif est le point fort de la solution SPSS »


« Nous voulions créer un pont entre les bases de données et nos activités en tant qu'agence, témoigne Janick Lalou, directrice du département Agence de Sogec, spécialiste en conseil hors-médias. Nous recherchions des données plus qualitatives ainsi que des outils de décision. Le but était de rechercher des corrélations du type "si... alors...", et de détecter les lois permettant d'organiser une relation commerciale. Nous faisons beaucoup de marketing direct avec des bases très volumineuses où il nous faut trouver les lois sur plusieurs niches simultanément. » L'appel d'offres a été arbitré en faveur de la solution SPSS. « Nos préférences allaient vers un outil de modélisation convivial avec un partenariat souple. C'est pour cela que nous avons choisi Clementine, explique Janick Lalou. Son point fort, c'est son côté intuitif. Mais le dictionnaire des données est à construire, c'est un point faible. »

Netarget : « Un élément structurant pour l'entreprise »


« Nous cherchions un outil avec une mise en place rapide pour analyser notre base de 1,2 million d'adresses en France, avec jusqu'à 1 000 critères par internaute », raconte Christophe Cousin, directeur marketing de Netarget, éditeur du site de loterie Bananalotto et client de SAS. Pour cette entreprise, qui tire l'essentiel de ses revenus de la monétisation de sa base de données, la capacité d'analyse est stratégique. L'objectif était d'en automatiser le traitement en faisant appel à une solution modulaire qui permettrait d'étaler les budgets au démarrage du site. « Nous sommes passés des requêtes simples à une typologie comprenant huit segments, des e-acheteurs actifs en VPC jusqu'aux étudiants qui n'achètent rien, poursuit Christophe Cousin. La solution de SAS prévoit un format de stockage propriétaire. A priori les informaticiens n'aiment pas ça. Mais leurs doutes ont été dissipés par la fiabilité et la rapidité de réponses de l'application. » Aujourd'hui, Christophe Cousin est satisfait de son outil d'analyse : « Sur le plan technique, je n'en entends jamais parler. C'est la meilleure des appréciations. » Il reproche à sa solution son coût élevé : « C'est un très gros investissement pour une petite structure comme la nôtre. Mais cet investissement est rentable. Il fait aujourd'hui partie des éléments structurants de notre entreprise. »

Sociologiciels : « Enrichir l'analyse avec des variables d'attitude »


« Nous utilisons des produits SAS, SPSS et Cisia (Spad) ainsi que les logiciels Panama et Crom-x, personnalisés en interne pour l'analyse descriptive », explique Christian Delom, P-dg de Sociologiciels. Ce conseil en traitement statistique prêche pour l'intégration la plus large des variables "attitudinales" dans l'analyse. « Par exemple, pour Canal Plus, il s'agit de prendre un panel de 2 000 personnes sur leur base de 4,5 millions d'abonnés, d'établir la typologie de cette population et d'élaborer un questionnaire spécifique - émissions préférées, habitudes de loisirs, style de vie... - en tout une cinquantaine de questions pour des entretiens fermés de 20 à 25 minutes, détaille Christian Delom. Puis d'analyser la typologie canonique pour aboutir à six types suivant leur intérêt pour Canal Plus et pour l'innovation technologique. » Ensuite, de reconnaître dans ces groupes ceux qui s'éloignent de Canal Plus, ceux qui ont une sensibilité technologique et qui seraient intéressés par un passage de l'analogique vers un autre mode de réception. Il faut alors trouver des questions discriminantes pour la typologie recherchée (dans cet exemple, il y en a eu 12). « Désormais, avec cet algorithme, on peut sur le centre d'appels de Canal définir en temps réel le profil de l'appelant », conclut Christian Delom.

Bibliographie


Pour en savoir plus : "Introduction au data mining", de Michel Jambu. Editions Eyrolles. "Le Data Mining", de René Lefébure et Gilles Venturi. Editions Eyrolles. "Data Mining", de Michaël J.A. Barry et Gordon Linoff. InterEditions. "Data mining pour le Web", de Patrick Naïm et Mylène Bazsalicza. Editions Eyrolles.

 
Je m'abonne

Alexis Nekrassov

NEWSLETTER | Abonnez-vous pour recevoir nos meilleurs articles