Eléments techniques
Les deux innovations que porte MyDataBall sont d'une part les techniques de calcul d'arborescences et d'autre part de la visualisation multidimensionnelle.
- 1) Les arborescences : c'est l'outil mathématique qui permet de créer une hiérarchie entre des variables pour expliquer un indicateur et apprendre. La solution d'arbres n'est pas unique et le nombre d'arborescences possible est immense (n!, n étant le nombre de variables mises en jeu). Plus vous mettez de variables pour expliquer et prédire, plus le nombre d'arbres possibles est grand.
Ainsi, le principe du processus MyDataBall est de calculer un ensemble réduit d'arborescences qui a un poids explicatif et prédictif élevé. On parle de forêt d'arborescences optimisée.
Notre solution cherche le plus court chemin thermodynamique qui minimise l'information nécessaire pour décrire et un sous ensemble de données. Ainsi, le sous ensemble des données est vu comme un système d'énergie et les arbres comme le résultat entropique (niveau d'information approchant au mieux la réponse déterministe). Le processus d'optimisation par le recuit simulé permet d'injecter une température élevée au départ pour ensuite refroidir les populations d'arbres et les cristaliser dans un ensemble à entropie maximale.
En prenant l'exemple d'une base de données ayant des millards de lignes et ayant exactement les mêmes données (mêmes informations par ligne), alors l'énergie est faible et le résultat est un arbre minimum d'un noeud qui explique totalement le contenu en une seule phrase : "il y a M milliards de lignes qui ont la même information". On passe ainsi de tera octets de données à quelques octets de données. La compression de données est ainsi optimale.
Dans les cas réels, les énergies dépendent du domaine d'investigation et du contenu des bases et peuvent être très élevées. Dans ce cas, les arborescences seront dites "fournies". Le résultat d'arborescences est guidé par les questions que vous posez sur les données et selon l'énergie de la base. La technique des arborescences répond aux enjeux de comprendre le pourquoi un indicateur évolue et non plus de savoir seulement où l'indicateur évolue. - 2) La visualisation sphérique : la compression des données par arborescence permet d'avoir à disposition un très grand nombre de données (réponse au BigData et au contrainte de "in memory"), mais également de visualiser les informations multidimensionnelles : visualiser des règles à plus de 2 dimensions (jusqu'à 10 dimensions). La rotation de la shère permet d'augmenter de Π fois de surface de l'écran qu'un écran normal et ainsi permet de visiter les profondeurs des arbres.
Les outils de dataviz classique ont une profondeur de 2 ce qui ne donne la possibilité de trouver que des corrélations. A plus de 2 dimensions, les causalités apparaissent. MyDataBall permet ainsi aux utilisateurs de valider de manière collaborative des règles de décision multidimensionnelles efficaces ... et de les transformer en règles causales ... le graal de la découverte de connaissances.
MyDataBall optimise les outils BI du marché (Qlik, Tableau, PowerBI, SpotFire, ...) en donnant la possibilité aux utilisateurs de MyDataBall de sélectionner et détecter les bons tableaux de bords qui expliquent.
Dans la génération des outils de machine learning, considérés comme "boîte noire", MyDataBall s'inscrit dans la capacité à rendre visible et comprendre ce que détectent les solutions de type réseau de neurones, et donnant la possibilité aux utilisateurs de se réapproprier les résultats.
Ces deux techniques réunies font la pertinence de l'approche MyDataBall. Elle permet ainsi de reproduire sur un ordinateur normal des ensembles de données gigantesques et de détecter de la connaissance pour les utilisateurs.
Extrait Bibliographie
- 1. Chauvin S., novembre 2012, novembre 2013, avril 2014, Data Visualisation, Groupement de Recherche sur la Complexité
- 2. Chauvin S, 1994. Decision Theory Evaluation For Fusion, Data Fusion Meeting CNRS.
- 3. Chauvin S. et Molendi P. « Des outils pour mieux piloter l’entreprise », revue Echanges, mai 2012, n° 298.
- 4. Desarachy B., Decision Fusion, IEEE Computer Society Press, 1994.
- 5. System Optimised by Fusion of Information for Data Mining Problems, S. Chauvin, C. L. Dunis, L. Jáñez, and J. Laws
- 6. FX Volatility Forecasts and the Informational Content of Market Data for Volatility, 2000, C. L. Dunis, Jason Laws, and Stéphane Chauvin, Financial Review of Forecasting Model, London