Une méthode d’approximation complète des données de test est en cours de développement grâce à des techniques algorithmiques récemment mises au point au Département de mathématiques et de statistique de l’Université de Montréal. Des prédictions sans erreurs de données et d’événements sont désormais envisageables. Le but de ce projet est d’automatiser des machines intelligentes pour qu’elles puissent prendre les bonnes décisions par elles-mêmes.

Aujourd’hui, les humains coordonnent la conception et la programmation de robots intelligents pour accompagner par exemple les aidant.e.s et les professionnel.le.s ou pour protéger une maison de dangers potentiels. Dans un avenir rapproché, toutefois, les machines auront techniquement la capacité de s’automatiser seules. C’est là l’objectif de mon projet de recherche, qui introduit une nouvelle technique d’apprentissage des données grâce à une étude menée sur les réseaux de neurones à une couche cachée avec le professeur Alejandro Murua, de l’Université de Montréal.

Pour donner aux machines la faculté d’apprendre, les modèles actuels sont entraînés avec des données de base, puis l’ensemble est testé avec de nouvelles données. La recherche scientifique a mené à plusieurs techniques, surtout dans le domaine de l’apprentissage profond grâce à l’invention des neuromachines par Frank Rosenblatt en 1958, qui permettent de mieux généraliser les modèles à de nouvelles données afin d’obtenir des prédictions exactes. Ainsi, le but fixé est que les machines soient en mesure de bien anticiper l’avenir avec des prédictions plus précises : tout un défi!

En ce sens, un problème bien connu en apprentissage automatique est celui de la « généralisation du modèle ». Qu’est-ce que cela signifie exactement ? C’est que la généralisation du modèle comprend parfois des erreurs. Pour remédier à cette lacune, je m’affaire à rechercher un modèle qui connaîtrait tout des données d’entraînement et des données de test, et ce, avec la plus grande précision possible. Pour y arriver, le professeur Alejandro Murua et moi avons ciblé l’apprentissage machine différentiel couplé à la technique de rétropropagation.

Notre méthodologie repose sur la descente de gradient, proposée par le mathématicien Augustin-Louis Cauchy en 1847, et mieux connue sous le nom de « descente de la courbe de la fonction dérivée ». Elle est placée localement afin d’agir pour chacune des observations des données d’entraînement, une et une seule donnée à la fois par algorithme de rétropropagation. Chaque algorithme dédié (par observation) permet de réduire l’erreur locale d’entraînement liée à une seule observation. La pratique montre que cette technique est convergente et qu’elle réduit l’erreur d’entraînement rapidement. La rétropropagation résume cette technique. Lorsqu’au départ (avant de démarrer l’algorithme), la rétropropagation sert à trouver les paramètres initiaux (idéaux) du modèle par une autre rétropropagation, la rétropropagation devient double, et on parle alors de « rétropropagation double ».

Pour réduire l’erreur d’entraînement pour les données de test, je fais un rapprochement vectoriel entre les données d’entrée pour l’entraînement et les données d’entrée pour la phase test, et ce, au moyen d’une métrique ou d’un critère de choix. Une fois la métrique choisie, j’utilise le théorème d’approximation de Taylor pour raffiner le modèle et le faire converger vers la vraie valeur. Ce théorème a été présenté par Brook Taylor dans son manuel Methodus incrementorum directa et inversa, publié en 1715. Il me permet d’interpoler une fonction à partir de plusieurs valeurs qui illustrent sa courbe.

La condition de base pour appliquer le théorème d’approximation de Taylor est la propriété de dérivabilité du modèle, ce qui veut dire que le modèle peut être exploré avec le gradient. En effet, si le modèle étudié est supposé différentiable, je peux tout connaître des données de tests, en appliquant une différentiation vectorielle, aussi appelée « augmentation de donnée par pas électronique (très petits pas) ». Grâce à la différenciation vectorielle, la convergence est alors assurée, et l’apprentissage machine est dit « différentiel ».

La combinaison de la rétropropagation double et de l’apprentissage machine différentiel donnent accès à la connaissance parfaite de toutes les données, qu’elles soient d’entraînement ou de tests. Cela représente une avancée importante pour la statistique et la science des données.

L’idée de fusionner ces éléments m’est venue lors de quelques essais avec plusieurs modèles structurés qui supprimaient certaines connexions de l’architecture choisie, mais je n’avais pas pour autant une bonne optimisation concurrente au départ. De là, une première leçon s’est dégagée : rendre les modèles épars en neurones avec une approche probabiliste des vraies distributions données ne suffit pas pour concurrencer les méthodes usuelles existantes.

J’ai donc cherché comment renforcer l’optimisation avec d’autres modèles en utilisant de nouveaux critères. Ces méthodes n’étant pas suffisantes à leur tour, j’ai redoublé d’efforts à l’étape d’optimisation et étudié une deuxième fois les paramètres de l’algorithme convergent de la descente du gradient dans sa forme aléatoire développée par Léon Bottou et décrite dans son texte « Stochastic Gradient Descent Tricks », publié dans la collection Lecture Notes in Computer Science de Springer (2012).

À mon avis, le potentiel de cette découverte est immense. Cette nouvelle technique pourra s’appliquer également à la conception de robots intelligents, de voitures automatisées, de systèmes de surveillance et de détection des intrusions, etc. À terme, ces machines pourront mieux s’automatiser par elles-mêmes jusqu’à atteindre la perfection, pourvu que les conditions d’approximation énumérées plus haut soient réunies.

Cet article a été réalisé par Nonvikan Karl-Augustt ALAHASSA, post doctorant en statistique au Département de mathématiques et de statistique (Université de Montréal), avec l’accompagnement de Marie-Paule Primeau, conseillère en vulgarisation scientifique, dans le cadre de notre initiative « Mon projet de recherche en 800 mots ».