Recherche

La lente révolution du datamining

Publié par le

Hélène Ivanoff et Patrick Canarelli, directeurs associés de la société Complex Systems, expliquent ici en quoi, une fois faite la part du mythe et de la réalité, le datamining est une démarche qui peut apporter beaucoup à l'entreprise. Tant au niveau de l'analyse de ses données que de celui, plus général, de son fonctionnement.

  • Imprimer


L'apparition du datamining coïncide avec l'émergence de bases de données de plus en plus volumineuses et de techniques d'analyse issues des domaines de l'Intelligence Artificielle et de l'extraction automatique de connaissance, ou Apprentissage Machine (réseaux de neurones, algorithmes génétiques, arbres de décision). Et, bien entendu avec la disponibilité d'une puissance de calcul toujours plus importante, le tout dans le contexte plus général d'une concurrence accrue. Le datamining a le même objectif de base que l'analyse de données ou les statistiques : découvrir de l'information dans les données c'est-à-dire comprendre les comportements pour les prévoir. Ce qui implique, au départ et bien en amont du choix d'un outil, la prise de conscience qu'une base de données est une mine d'information et la volonté de l'utiliser. Mais, entre l'analyse de données traditionnelle et le datamining, les moyens diffèrent ainsi que le format général des résultats.

Des gains de précision et de clarté


La démarche datamining se démarque en effet de l'approche statistique traditionnelle sur plusieurs points importants. Une première caractéristique consiste à pouvoir appréhender des phénomènes - tels que la non-linéarité ou les interactions entre données - mal pris en compte par les techniques classiques. Les réseaux de neurones, qui permettent d'élaborer des scorings ou des modèles de prévision, en sont l'exemple type. Il en résulte souvent des gains en précision significatifs. La clarté des résultats est aussi un des avantages du datamining. Il est à la portée de tous de pouvoir comprendre un profil de comportement énoncé sous la forme "75 % des acheteurs de yaourts nature ayant au moins 2 enfants sont consommateurs de mayonnaise en tube". Une segmentation résultant d'un arbre de décision possède, par exemple, cette facilité de lecture. L'information est donc délivrée sous une forme immédiatement compréhensible, à la différence de celle figurant dans des tableaux croisés ou représentée sur des plans factoriels. Ainsi, on peut considérer que les outils de datamining sont largement utilisables par des non-spécialistes, c'est-à-dire ne possédant pas une formation statistique poussée. Le datamining pourrait ainsi contribuer à terme à une décentralisation de l'analyse de données dans l'entreprise et partant, la rendre plus systématique à chaque stade de la conception d'un produit ou de l'élaboration d'un service. Enfin, c'est surtout sa capacité à pouvoir découvrir de manière autonome de l'information jusqu'ici quasi inaccessible qui a projeté cette démarche sur le devant de la scène. C'est d'ailleurs le sens premier du terme datamining. Par exemple, sur la base des données journalières d'un hypermarché, la technique des algorithmes génétiques peut être utilisée pour pointer directement sur les produits les plus fortement associés dans le chariot de la ménagère. Les méthodes d'analyse de données permettraient seulement de conclure à la "proximité" des achats d'huile de colza, de pizza surgelée et de haricots verts en conserve, là où une technique de datamining exprimera directement que 37 % des chariots contenant de l'huile de colza et une pizza surgelée contenaient aussi des haricots en conserve. On comprend sur cet exemple que, bien que le datamining soit souvent associé, voire confondu, à l'analyse multidimensionnelle (Olap, EIS), il représente une démarche radicalement différente. En effet, l'utilisateur ne décide pas ici d'examiner particulièrement les acheteurs d'huile de colza, ni de rechercher ce qui les caractérise, mais plus globalement de rechercher ce qu'il pourrait y avoir de remarquable, au sens statistique du terme, dans ses données. L'utilisateur conserve cependant un rôle important : orienter les directions de recherche afin de réduire les découvertes redondantes ou relevant du sens commun.

Une vision plurielle


La diversité des techniques disponibles fait que le datamining n'est nullement réductible à une seule d'entre elles. Ces dernières sont généralement spécifiques et permettent d'obtenir des résultats uniques et différents. Cette vision plurielle de l'information contenue dans les données se révèle souvent irremplaçable pour en saisir pleinement toutes les facettes. Ainsi, de grands volumes de données ne sont en rien nécessaires à l'utilisation de l'approche datamining, les avantages inhérents à cette démarche se révélant largement suffisants par eux-mêmes. De même, s'il est plus commode de disposer d'un datawarehouse, sa constitution préalable n'est pas impérative. Si les outils sont plus simples à utiliser et permettent d'obtenir des résultats plus clairs, il subsiste une étape cruciale, trop souvent passée sous silence : le traitement préalable des données. Car il ne suffit pas de fournir un fichier à un logiciel pour obtenir des résultats pertinents. Ceux-ci dépendent bien sûr de ce que l'on aura fourni comme matière à analyser ainsi que de la définition de la problématique associée. De la même manière, le traitement préalable des données requiert un soin tout aussi important que pour une analyse classique. Le datamining est donc bien une nouvelle manière d'aborder les données, et non une mode comme son arrivée tapageuse aurait pu le laisser présager. Il n'est pas une approche presse-bouton. Son apparition ne relègue pas au rang de vieilleries poussiéreuses les techniques classiques d'analyse. Mais apporte de nouveaux outils dont les atouts sont multiples : meilleure performance, plus grande lisibilité des résultats, automatisation de la recherche, utilisation moins élitiste. Plutôt qu'aller à l'encontre des approches plus classiques, gageons au contraire que le datamining va démocratiser l'ensemble du processus d'analyse et permettre à terme une analyse des données de l'entreprise à la fois plus large et plus systématique.

HÉLÈNE IVANOFF ET PATRICK CANARELLI

Big Année et Bonne data !

Big Année et Bonne data !

Big Année et Bonne data !

Avec la collaboration de Thiery Vallaud*, éminent spécialiste du datamining, nous vous proposons d'aborder la data science et le big data sous [...]

Publicis Groupe acquiert ETO

Publicis Groupe acquiert ETO

Publicis Groupe acquiert ETO

Publicis Groupe va étoffer son offre de services dans le secteur du CRM et du datamining avec l'acquisition de l'agence de marketing relationnel. [...]

Datamachin, data qui ? Data quoi? mais non dataminer !

Datamachin, data qui ? Data quoi? mais non dataminer !

Datamachin, data qui ? Data quoi? mais non dataminer !

Ecrit avec la collaboration de Thierry Vallaud*, spécialiste du datamining, nous vous proposons d'aborder ce métier et cette expertise sous [...]

Soft Computing choisit IBM SPSS

Soft Computing choisit IBM SPSS

Soft Computing choisit IBM SPSS

Le spécialiste du datamining, de la business intelligence et du CRM intègre le logiciel IBM SPSS dans son offre "Big Data Marketing".

Fnac.com souhaite mieux connaître ses clients

Fnac.com souhaite mieux connaître ses clients

Fnac.com souhaite mieux connaître ses clients

Fnac.com a choisi la solution de datamining Coheris Spad pour développer une connaissance plus fine de ses clients et mieux anticiper leurs [...]

Amabis distribue le logiciel DataLab de Complex Systems

Amabis distribue le logiciel DataLab de Complex Systems

Amabis distribue le logiciel DataLab de Complex Systems

Déjà partenaires depuis plusieurs années, Amabis et Complex Systems étendent leur collaboration à la distribution de la nouvelle version de [...]

Les techniques du scoring

Les techniques du scoring

Les techniques du scoring

Voici quelques méthodes de scoring passées en revue par Mahamoud Azihary, directeur de Cofidis Datamining.