En ce moment En ce moment

Trouver les variables pertinentes !

Publié par le

Un nouveau logiciel devrait permettre une analyse automatisée des données explicatives, à la recherche des variables pertinentes.

  • Imprimer


Le traitement des données pour l'élaboration d'un modèle est réputé être l'étape la plus longue, qui prend facilement 70 à 80 % du temps. Les éditeurs d'outils d'analyse ont beaucoup travaillé sur les aspects de modélisation, mais pas sur le traitement préalable. Ce traitement se fait essentiellement à la main. Complex Systems a développé un outil baptisé "Datalab", qui automatise cette phase. « Notre outil permet d'automatiser la recherche des découpages optimaux d'une variable, comme le chiffre d'affaires par client. Par exemple, lorsqu'il s'agit d'une valeur continue et qu'il faut établir des seuils - moins de 15 E plus de 65 E, etc. », explique Hélène Ivanoff, directrice associée de Complex Systems. Le procédé Datalab consiste à combiner les variables pour en fabriquer de nouvelles, plus discriminantes. Ces nouvelles variables seront basées sur des ratios. Par exemple, on introduira le taux de réactivité, c'est-à-dire le nombre de réactions par rapport au nombre de sollicitations, ou encore l'évolution mensuelle du chiffre d'affaires. Dans le domaine caritatif, il est aussi intéressant de savoir si le prospect a donné 15 euros, soit une valeur symbolique, ou un autre montant. Datalab fabrique ces variables de manière automatique. Il essaie d'imaginer toutes les variables possibles et de voir quel est leur rapport avec le taux de retour, le taux de risque ou toute autre variable que l'on cherche à modéliser. Cet outil donne de nouvelles idées aux statisticiens. La première version de Datalab est actuellement testée par une quinzaine d'utilisateurs, tous secteurs confondus : de grands annonceurs de la VPC, des banques, des assureurs. « Notre objectif était de retrouver les variables les plus pertinentes en matière de tarifs, témoigne Christophe Le Torc'h, actuaire (responsable de la structure tarifaire) chez Direct Assurance. Nous utilisons Datalab pour analyser les données issues du portefeuille des contrats, sur le conducteur, le type de véhicule, le lieu d'habitation, et nous recherchons des croisements entre ces critères. » Par exemple, l'assureur voulait savoir si le type de parking et le département de résidence peuvent être utilement croisés avec le sinistre. Et il a découvert que la probabilité de sinistre vol dans la rue, quand il s'agit du département de la Lozère, est inférieure à celle d'un parking gardé dans le Val d'Oise. Sans surprise. « Nous voulons modéliser la sinistralité vol pour le calcul de la prime, analyser la variable fréquence multipliée par le coût moyen d'un vol, poursuit Christophe Le Torc'h. Jusque-là, ce calcul était fait par approximation. Avec Datalab, nous optenons, d'un seul coup, tous les croisements intéressants. Cet outil peut nous apporter une aide décisionnelle importante. »

Alexis Nekrassov

La rédaction vous recommande

Sur le même sujet

RGPD : Comment les marques se mettent en conformité
Data
RGPD : Comment les marques se mettent en conformité
Corentin Mossiere

RGPD : Comment les marques se mettent en conformité

Par Floriane Salgues

A moins de 100 jours de l'entrée en vigueur du règlement sur la protection des données personnelles (RGPD), où en sont les marques et leurs [...]

Renault met en place son DMP France avec Weborama
Data
Renault met en place son DMP France avec Weborama

Renault met en place son DMP France avec Weborama

Par Amélie Riberolle

Renault France, accompagné de l'agence conseil fifty-five, a choisi Weborama pour l'accompagner dans la mise en place d'un dispositif data-driven [...]

Nouveau nom et nouvelles ambitions pour Selligent
Data
Nouveau nom et nouvelles ambitions pour Selligent

Nouveau nom et nouvelles ambitions pour Selligent

Par Stéphane Guillard

La plateforme de marketing Selligent devient Selligent marketing cloud. Ce changement concorde avec une mise à jour importante du produit, qui [...]