La necessità di gestire problemi su larga scala rende fondamentale lo sviluppo di algoritmi di Deep Learning che operino in tempi computazionali sostenibili. La presente tesi affronta il problema di minimizzazione del rischio empirico per l’addestramento dei modelli attraverso il metodo di Discesa del Gradiente Stocastico (SGD), focalizzandosi sulle strategie di riduzione della varianza del gradiente stocastico al fine di migliorarne l’efficienza e la stabilità. Tra queste, si distinguono l’estrazione di un mini-batch di campioni all’interno della stessa iterazione, il controllo della sua dimensione e la scelta della distribuzione di campionamento utilizzata. In particolare, sono state studiate e integrate le seguenti strategie: la riduzione progressiva della varianza attraverso l’aumento dinamico della dimensione del mini-batch, presentata nell’algoritmo DeepLISA, e la distribuzione di campionamento Adaptive Importance Sampling (AIS), un metodo Monte Carlo che approssima la minimizzazione della varianza rispetto alla scelta delle distribuzioni di probabilità. In principio, sono state sviluppate alcune varianti di DeepLISA, che, aggiornando puntualmente la dimensione del mini-batch, permettono di ottenere risultati iniziali migliori grazie alla velocizzazione del processo nelle prime epoche. Successivamente, attraverso l’integrazione della strategia AIS all’interno dell’algoritmo DeepLISA, la tesi evidenzia come il metodo risultante, l’algoritmo DeepLISA-AIS, permetta di ottenere un rapido incremento delle prestazioni in poche iterazioni, migliori rispetto a quelle dell’algoritmo originale, riducendone inoltre il comportamento oscillatorio. Tuttavia, l’analisi ha mostrato che l’accuratezza tende a stabilizzarsi intorno all’87.9%, risultando inferiore rispetto al metodo originale, il quale raggiunge l’89.0%. Le due difficoltà principali riscontrate nell’implementazione dell’algoritmo in ambiente PyTorch riguardano la saturazione della memoria del calcolatore e il proibitivo tempo computazionale legato al calcolo dei gradienti per campione, necessari per la strategia AIS. Tali operazioni ritardano il processo di circa 50 secondi per ogni epoca, rendendo la qualità delle prestazioni non paragonabile a quella di DeepLISA in termini di tempo. Per superare queste limitazioni, sono state sviluppate ulteriori varianti, tra cui l’aggiornamento della distribuzione di campionamento con cadenza per epoca e l’aggiornamento puntuale della dimensione del mini-batch. Queste modifiche hanno permesso di risparmiare rispettivamente circa 4 secondi per epoca e 5 minuti sul tempo totale, peggiorando tuttavia il comportamento oscillatorio del metodo. Risultati di maggior rilievo sono stati ottenuti attraverso l’alternanza del campionamento casuale e della distribuzione adattiva, che ha permesso di stabilizzare l’accuratezza ad una soglia superiore rispetto a DeepLISA attraverso un tempo computazionale adeguato, raggiungendo circa l’89.4%. Infine, si è deciso di provare ad eliminare completamente il calcolo dei gradienti per campione, cogliendo informazioni unicamente dal gradiente del rischio empirico sull’intero mini-batch. Attraverso tempi computazionali molto simili a quelli di DeepLISA, questa soluzione permette di ottenere un’accuratezza dell’89.0%, garantendo le stesse prestazioni ma con meno oscillazioni. Gli algoritmi proposti sono stati validati per l’addestramento di una particolare rete neurale convoluzionale, per la classificazione del dataset CIFAR10: la Residual Network (ResNet18). Essa è costituita da diciotto strati separati in blocchi dalle cosiddette shortcut connections, che permettono di ridurre il problema di degradazione dell’accuratezza presente nelle reti neurali molto profonde.

LISA-AIS: Controllo Dinamico del Batch Size ed Adaptive Importance Sampling nel Deep Learning

MUNARI, MARTA
2024/2025

Abstract

La necessità di gestire problemi su larga scala rende fondamentale lo sviluppo di algoritmi di Deep Learning che operino in tempi computazionali sostenibili. La presente tesi affronta il problema di minimizzazione del rischio empirico per l’addestramento dei modelli attraverso il metodo di Discesa del Gradiente Stocastico (SGD), focalizzandosi sulle strategie di riduzione della varianza del gradiente stocastico al fine di migliorarne l’efficienza e la stabilità. Tra queste, si distinguono l’estrazione di un mini-batch di campioni all’interno della stessa iterazione, il controllo della sua dimensione e la scelta della distribuzione di campionamento utilizzata. In particolare, sono state studiate e integrate le seguenti strategie: la riduzione progressiva della varianza attraverso l’aumento dinamico della dimensione del mini-batch, presentata nell’algoritmo DeepLISA, e la distribuzione di campionamento Adaptive Importance Sampling (AIS), un metodo Monte Carlo che approssima la minimizzazione della varianza rispetto alla scelta delle distribuzioni di probabilità. In principio, sono state sviluppate alcune varianti di DeepLISA, che, aggiornando puntualmente la dimensione del mini-batch, permettono di ottenere risultati iniziali migliori grazie alla velocizzazione del processo nelle prime epoche. Successivamente, attraverso l’integrazione della strategia AIS all’interno dell’algoritmo DeepLISA, la tesi evidenzia come il metodo risultante, l’algoritmo DeepLISA-AIS, permetta di ottenere un rapido incremento delle prestazioni in poche iterazioni, migliori rispetto a quelle dell’algoritmo originale, riducendone inoltre il comportamento oscillatorio. Tuttavia, l’analisi ha mostrato che l’accuratezza tende a stabilizzarsi intorno all’87.9%, risultando inferiore rispetto al metodo originale, il quale raggiunge l’89.0%. Le due difficoltà principali riscontrate nell’implementazione dell’algoritmo in ambiente PyTorch riguardano la saturazione della memoria del calcolatore e il proibitivo tempo computazionale legato al calcolo dei gradienti per campione, necessari per la strategia AIS. Tali operazioni ritardano il processo di circa 50 secondi per ogni epoca, rendendo la qualità delle prestazioni non paragonabile a quella di DeepLISA in termini di tempo. Per superare queste limitazioni, sono state sviluppate ulteriori varianti, tra cui l’aggiornamento della distribuzione di campionamento con cadenza per epoca e l’aggiornamento puntuale della dimensione del mini-batch. Queste modifiche hanno permesso di risparmiare rispettivamente circa 4 secondi per epoca e 5 minuti sul tempo totale, peggiorando tuttavia il comportamento oscillatorio del metodo. Risultati di maggior rilievo sono stati ottenuti attraverso l’alternanza del campionamento casuale e della distribuzione adattiva, che ha permesso di stabilizzare l’accuratezza ad una soglia superiore rispetto a DeepLISA attraverso un tempo computazionale adeguato, raggiungendo circa l’89.4%. Infine, si è deciso di provare ad eliminare completamente il calcolo dei gradienti per campione, cogliendo informazioni unicamente dal gradiente del rischio empirico sull’intero mini-batch. Attraverso tempi computazionali molto simili a quelli di DeepLISA, questa soluzione permette di ottenere un’accuratezza dell’89.0%, garantendo le stesse prestazioni ma con meno oscillazioni. Gli algoritmi proposti sono stati validati per l’addestramento di una particolare rete neurale convoluzionale, per la classificazione del dataset CIFAR10: la Residual Network (ResNet18). Essa è costituita da diciotto strati separati in blocchi dalle cosiddette shortcut connections, che permettono di ridurre il problema di degradazione dell’accuratezza presente nelle reti neurali molto profonde.
2024
Image Classification
Deep Learning
SGD Method
Variance Reduction
Importance Sampling
File in questo prodotto:
File Dimensione Formato  
Tesi Marta Munari.pdf

accesso aperto

Dimensione 6.97 MB
Formato Adobe PDF
6.97 MB Adobe PDF Visualizza/Apri

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14251/5769