Résumé de la thèse :
Les avancées récentes en apprentissage profond et par renforcement ont récemment conduit à des ruptures dans plusieurs domaines (e.g. jeu de Go, prédiction de structures protéiques, ChatGPT), atteignant dans certains contextes des performances suprahumaines. Les progrès amenés par ces domaines de l’Intelligence Artificielle invitent naturellement à étudier les approches à base de réseaux de neurones entraînés par renforcement pour aborder des problèmes complexes à forte combinatoire. Aujourd’hui, nombre de ces problèmes sont traités, de manière plus ou moins efficace et satisfaisante, par des approches de résolution reposant sur une définition chronophage proposée par des experts du domaine de la recherche opérationnelle.
Dans ce contexte, cette thèse se concentre sur l’étude de l’apprentissage profond et par renforcement pour la résolution de deux problèmes d’optimisation combinatoire dits de tournées de véhicules (VRP) : le problème de tournées de véhicules avec contraintes de capacités (CVRP), et le problème de covoiturage (RHP). Le premier est un problème d’optimisation classique bien connu, tandis que le second est une variante plus récente impliquant de l’incertitude, e.g. durée des trajets. Notre ligne principale de recherche se concentre sur l’étude de solveurs reposants sur des réseaux de neurones profonds entraînés à l’aide de l’apprentissage par renforcement (algorithmes de type policy gradient et Deep Q-learning) sur de vastes jeux de données d’instances non résolues. Ces solveurs permettent entre autres de s’affranchir de la définition manuelle de méthodes de résolution et de déléguer cette tâche à un réseau de neurones profond. Le réseau estimera, par exemple, une probabilité conditionnelle utile pour la construction itérative d’une solution candidate, e.g. la probabilité que la visite d’un client spécifique, sachant une liste de clients déjà visités et la configuration du problème, nous approche de la tournée optimale. Nous étudions plus précisément dans nos travaux des architectures de réseaux de neurones basées sur le mécanisme d’attention. Ce dernier rend nos solveurs agnostiques à la taille des instances, ce qui nous permet d’étudier empiriquement leur capacité de généralisation, en particulier dans leur réutilisation sur des instances de VRP de nature ou de taille différentes de celles considérées lors des phases d’entraînement.
Ce manuscrit est structuré autour de trois contributions. La première vise à étudier l’apport de l’apprentissage par transfert dans le cadre de la résolution de problèmes d’optimisation combinatoire par réseaux de neurones. Nous nous basons dans notre étude sur le transfert implicite de connaissances du problème de voyageur de commerce (TSP) vers le CVRP. L’objectif est d’étudier si un modèle entraîné pour résoudre un problème de VRP donné, peut être utilisé pour résoudre un autre problème similaire suite à l’application de quelques étapes d’entraînement supplémentaires. Dans la deuxième contribution, nous proposons une nouvelle méthode à deux phases impliquant des réseaux de neurones profonds et un algorithme de plus court chemin pour gérer la contrainte de capacité. Nous montrons à travers nos différentes expérimentations la compétitivité de cette méthode avec les approches neuronales de la littérature ainsi que les heuristiques classiques du CVRP. Pour notre dernière contribution, nous étudions l’apport des méthodes de résolution à base de réseaux de neurones profonds pour un problème de covoiturage incluant une dimension d’incertitude (caractère stochastique de l’observation des requêtes et de la durée de trajet). Nous proposons pour cela une approche neuronale à base d’apprentissage par renforcement, capable de traiter des nombres variables de requêtes et de véhicules. Nos résultats montrent l’efficacité d’une telle approche pour aborder ce type de problèmes.
Abstract :
Recent advances in deep and reinforcement learning have led to breakthroughs in several fields (e.g. game of Go, protein structure prediction, ChatGPT), in some contexts achieving superhuman performance. The progress made in these fields of Artificial Intelligence naturally leads us to study approaches based on neural networks trained by reinforcement learning for tackling complex combinatorial problems. Today, many of these problems are, more or less effectively and satisfactorily, dealt with by solving approaches relying on time-consuming definition proposed by experts in the field of Operations Research.
In this context, this thesis focuses on the study of deep and reinforcement learning for the solution of two combinatorial optimization problems known as vehicle routing problems (VRP): the Capacitated Vehicle Routing Problem (CVRP), and the Ride-Hailing Problem (RHP). The former is a well-known classical optimization problem, while the latter is a more recent variant involving uncertainty, e.g. trip duration. Our main line of research focuses on the study of solvers based on deep neural networks trained using reinforcement learning (policy gradient and Deep Q-learning algorithms) on large datasets of unsolved instances. Among other things, these solvers make it possible to overcome the need for manual definition of solving methods and delegate this task to a deep neural network. For example, the network will estimate a conditional probability that is useful for iteratively constructing a candidate solution, e.g. the probability that visiting a specific client given a list of previously visited customers and the problem configuration, will
bring us closer to the optimal solution. More specifically, we are studying neural network architectures based on the attention mechanism. The latter makes our solvers agnostic to instance size, enabling us to empirically study their generalization capacity, particularly in their reuse on VRP instances of a different nature or size from those considered during the training phases.
This manuscript is structured around three contributions. The first one aims at studying the contribution of transfer learning to the resolution of combinatorial optimization problems using neural networks. Our study is based on the implicit transfer of knowledge from the traveling salesman problem (TSP) to the CVRP.
The aim is to study whether a model trained to solve a given VRP problem can be used to solve another similar problem following the application of a few additional training steps. In the second contribution, we propose a new two-steps method involving deep neural networks and a shortest path algorithm to handle
the capacity constraint. Through our various experiments, we demonstrate the competitiveness of this method with neural approaches in the literature, as well as with classical CVRP heuristics. In our final contribution, we study the contribution of deep neural network-based solution methods to a ride-hailing problem that includes a dimension of uncertainty (stochastic nature of request observation and travel time). We propose a neural approach based on reinforcement learning, capable of handling variable numbers of requests and vehicles. Our results demonstrate the effectiveness of such an approach in tackling this type of problem.