Deep Reinforcement Learning per l'Ottimizzazione dei costi in un'azienda produttiva

The main feature that distinguishes Reinforcement Learning from other areas of Machine Learning, such as supervised and unsupervised learning, is the fact that it doesn't need a specific training set for the algorithm training phase. This characteristic makes Reinforcement Learning particularly flexible and versatile for solving a broad set of problems. This thesis, in particular, will illustrate how Reinforcement Learning has been used to solve an optimization problem with a large number of variables and a set of feasible solutions defined by many constraints. This problem was raised by a manufacturing company during the curricular internship. The idea of using this family of methods in an optimization context arose from the fact that, in Reinforcement Learning algorithms, the agent interacts with the environment with the goal of maximizing a reward. Since the goal of the considered business case was minimizing production costs, it was sufficient to define the reward as the opposite of the costs to lead the agent to act in such a way as to converge on the solution of the optimization problem under consideration. The greatest challenge encountered during the computational development of the solution was managing a vast state and action space. Therefore, since tabular methods were not usable, Deep Reinforcement Learning methods had to be used. These methods use the predictive capabilities of a neural network to estimate the value of unexplored states, thus allowing the agent to maximize the cumulative reward, even with limited initial knowledge of the state space. This approach thus solved the problem of managing a high-dimensional state and action space, thus solved the entire problem.

La caratteristica principale che permette al Reinforcement Learning di distinguersi dagli altri settori del Machine Learning quali l'appredimento supervisionato e quello non supervisionato, è la capacità di non necessitare di un vero e proprio training set per la fase di addestramento degli algoritmi. Questa peculiarità rende l'apprendimento per rinforzo particolarmente flessibile e versatile per la risoluzione di un'ampio insieme di problemi. In questa tesi, in particolare, verrà illustrato il modo in cui il Reinforcement Learning è stato usato per affrontare un problema di ottimizzazione con un alto numero di variabili e con un'insieme delle soluzioni ammissibili definito da molti vincoli. Questo problema è stato sollevato da un'azienda produttiva durante lo svolgimento dell'esperienza di tirocinio curricolare. L'idea che ha portato alla scelta di utilizzare questa famiglia di metodi in un contesto di ottimizzazione è nata dal fatto che, negli algoritmi di Reinforcement Learning, l'agente interagisce con l'ambiente con l'obiettivo di massimizzare una ricompensa. Visto che il caso aziendale da affrontare consisteva nella minimizzazione dei costi dovuti alla produzione, è stato sufficiente definire la ricompensa come l'opposto dei costi per portare l'agente ad agire in modo tale da convergere alla soluzione del problema di ottimizzazione considerato. La maggiore difficoltà incontrata nel corso dello sviluppo computazionale della soluzione è stata la gestione di un vasto spazio degli stati e delle azioni: non avendo, quindi, a disposizione la possibilità di utilizzare i metodi tabellari, si è dovuto fare ricorso ai metodi di Deep Reinforcement Learning. Questi ultimi sfruttano le capacità predittive di una rete neurale per stimare il valore degli stati inesplorati, permettendo così all'agente di massimizzare comunque la ricompensa cumulativa, anche a partire da una iniziale conoscenza limitata dello spazio degli stati. Questo approccio ha permesso, così, di aggirare il problema dovuto all'alta dimensionalità dello spazio degli stati e di quello delle azioni e ha portato, quindi, alla risoluzione il problema.