Trouver les variables pertinentes !
À LIRE AUSSI
Le traitement des données pour l'élaboration d'un modèle est réputé être
l'étape la plus longue, qui prend facilement 70 à 80 % du temps. Les éditeurs
d'outils d'analyse ont beaucoup travaillé sur les aspects de modélisation, mais
pas sur le traitement préalable. Ce traitement se fait essentiellement à la
main. Complex Systems a développé un outil baptisé "Datalab", qui automatise
cette phase. « Notre outil permet d'automatiser la recherche des découpages
optimaux d'une variable, comme le chiffre d'affaires par client. Par exemple,
lorsqu'il s'agit d'une valeur continue et qu'il faut établir des seuils - moins
de 15 E plus de 65 E, etc. », explique Hélène Ivanoff, directrice associée de
Complex Systems. Le procédé Datalab consiste à combiner les variables pour en
fabriquer de nouvelles, plus discriminantes. Ces nouvelles variables seront
basées sur des ratios. Par exemple, on introduira le taux de réactivité,
c'est-à-dire le nombre de réactions par rapport au nombre de sollicitations, ou
encore l'évolution mensuelle du chiffre d'affaires. Dans le domaine caritatif,
il est aussi intéressant de savoir si le prospect a donné 15 euros, soit une
valeur symbolique, ou un autre montant. Datalab fabrique ces variables de
manière automatique. Il essaie d'imaginer toutes les variables possibles et de
voir quel est leur rapport avec le taux de retour, le taux de risque ou toute
autre variable que l'on cherche à modéliser. Cet outil donne de nouvelles idées
aux statisticiens. La première version de Datalab est actuellement testée par
une quinzaine d'utilisateurs, tous secteurs confondus : de grands annonceurs de
la VPC, des banques, des assureurs. « Notre objectif était de retrouver les
variables les plus pertinentes en matière de tarifs, témoigne Christophe Le
Torc'h, actuaire (responsable de la structure tarifaire) chez Direct Assurance.
Nous utilisons Datalab pour analyser les données issues du portefeuille des
contrats, sur le conducteur, le type de véhicule, le lieu d'habitation, et nous
recherchons des croisements entre ces critères. » Par exemple, l'assureur
voulait savoir si le type de parking et le département de résidence peuvent
être utilement croisés avec le sinistre. Et il a découvert que la probabilité
de sinistre vol dans la rue, quand il s'agit du département de la Lozère, est
inférieure à celle d'un parking gardé dans le Val d'Oise. Sans surprise. « Nous
voulons modéliser la sinistralité vol pour le calcul de la prime, analyser la
variable fréquence multipliée par le coût moyen d'un vol, poursuit Christophe
Le Torc'h. Jusque-là, ce calcul était fait par approximation. Avec Datalab,
nous optenons, d'un seul coup, tous les croisements intéressants. Cet outil
peut nous apporter une aide décisionnelle importante. »