Recherche

Trouver les variables pertinentes !

Un nouveau logiciel devrait permettre une analyse automatisée des données explicatives, à la recherche des variables pertinentes.

Publié par le
Lecture
3 min
  • Imprimer


Le traitement des données pour l'élaboration d'un modèle est réputé être l'étape la plus longue, qui prend facilement 70 à 80 % du temps. Les éditeurs d'outils d'analyse ont beaucoup travaillé sur les aspects de modélisation, mais pas sur le traitement préalable. Ce traitement se fait essentiellement à la main. Complex Systems a développé un outil baptisé "Datalab", qui automatise cette phase. « Notre outil permet d'automatiser la recherche des découpages optimaux d'une variable, comme le chiffre d'affaires par client. Par exemple, lorsqu'il s'agit d'une valeur continue et qu'il faut établir des seuils - moins de 15 E plus de 65 E, etc. », explique Hélène Ivanoff, directrice associée de Complex Systems. Le procédé Datalab consiste à combiner les variables pour en fabriquer de nouvelles, plus discriminantes. Ces nouvelles variables seront basées sur des ratios. Par exemple, on introduira le taux de réactivité, c'est-à-dire le nombre de réactions par rapport au nombre de sollicitations, ou encore l'évolution mensuelle du chiffre d'affaires. Dans le domaine caritatif, il est aussi intéressant de savoir si le prospect a donné 15 euros, soit une valeur symbolique, ou un autre montant. Datalab fabrique ces variables de manière automatique. Il essaie d'imaginer toutes les variables possibles et de voir quel est leur rapport avec le taux de retour, le taux de risque ou toute autre variable que l'on cherche à modéliser. Cet outil donne de nouvelles idées aux statisticiens. La première version de Datalab est actuellement testée par une quinzaine d'utilisateurs, tous secteurs confondus : de grands annonceurs de la VPC, des banques, des assureurs. « Notre objectif était de retrouver les variables les plus pertinentes en matière de tarifs, témoigne Christophe Le Torc'h, actuaire (responsable de la structure tarifaire) chez Direct Assurance. Nous utilisons Datalab pour analyser les données issues du portefeuille des contrats, sur le conducteur, le type de véhicule, le lieu d'habitation, et nous recherchons des croisements entre ces critères. » Par exemple, l'assureur voulait savoir si le type de parking et le département de résidence peuvent être utilement croisés avec le sinistre. Et il a découvert que la probabilité de sinistre vol dans la rue, quand il s'agit du département de la Lozère, est inférieure à celle d'un parking gardé dans le Val d'Oise. Sans surprise. « Nous voulons modéliser la sinistralité vol pour le calcul de la prime, analyser la variable fréquence multipliée par le coût moyen d'un vol, poursuit Christophe Le Torc'h. Jusque-là, ce calcul était fait par approximation. Avec Datalab, nous optenons, d'un seul coup, tous les croisements intéressants. Cet outil peut nous apporter une aide décisionnelle importante. »

Alexis Nekrassov

S'abonner
au magazine
Se connecter
Retour haut de page