Distributed Training in Traditional ML-based and GNN-based NIDS
Allenamento distribuito nei NIDS tradizionali basati su ML e GNN

Questa tesi analizza l’ottimizzazione delle tecniche di addestramento distribuito per i sistemi di rilevamento delle intrusioni di rete (NIDS), confrontando approcci basati su Graph Neural Network (GNN) con modelli di machine learning tradizionali. A partire da dataset pubblici basati su NetFlow, come UNSW-NB15 e ToN-IoT, è stata sviluppata una pipeline modulare e scalabile per il pre-processing dei dati, la costruzione dei grafi e l’addestramento efficiente su architetture multi-GPU. Le GNN sono state implementate utilizzando PyTorch e DGL con DistributedDataParallel, mentre i modelli classici (es. Random Forest, XGBoost) sono stati parallelizzati tramite Dask e cuML. I risultati sperimentali dimostrano che le GNN, grazie alla struttura relazionale del traffico di rete, ottengono prestazioni migliori nel rilevamento di attacchi furtivi, e che l’addestramento distribuito riduce significativamente i tempi di calcolo. Il framework proposto è generalizzabile a diversi dataset e fornisce indicazioni pratiche per l’adozione di NIDS scalabili in ambienti di calcolo ad alte prestazioni.

This thesis investigates the optimization of distributed training techniques for Network Intrusion Detection Systems (NIDS), comparing Graph Neural Network (GNN)-based approaches with traditional machine learning models. Starting from NetFlow-based public datasets such as UNSW-NB15 and ToN-IoT, a modular and scalable pipeline was developed to preprocess the data, build graph representations, and enable efficient training on multi-GPU architectures. GNNs were implemented using PyTorch and DGL with DistributedDataParallel, while classical models (e.g., Random Forests, XGBoost) were parallelized using Dask and cuML. Experimental results show that GNNs benefit from the relational structure of network traffic and achieve better detection performance on stealthy attacks, while distributed training significantly reduces time-to-solution. The proposed framework is generalizable to multiple datasets and provides practical insights for deploying scalable NIDS in high-performance computing environments.

Distributed Training in Traditional ML-based and GNN-based NIDS Allenamento distribuito nei NIDS tradizionali basati su ML e GNN

CAPUTO, DANILO

2024/2025

Abstract

Questa tesi analizza l’ottimizzazione delle tecniche di addestramento distribuito per i sistemi di rilevamento delle intrusioni di rete (NIDS), confrontando approcci basati su Graph Neural Network (GNN) con modelli di machine learning tradizionali. A partire da dataset pubblici basati su NetFlow, come UNSW-NB15 e ToN-IoT, è stata sviluppata una pipeline modulare e scalabile per il pre-processing dei dati, la costruzione dei grafi e l’addestramento efficiente su architetture multi-GPU. Le GNN sono state implementate utilizzando PyTorch e DGL con DistributedDataParallel, mentre i modelli classici (es. Random Forest, XGBoost) sono stati parallelizzati tramite Dask e cuML. I risultati sperimentali dimostrano che le GNN, grazie alla struttura relazionale del traffico di rete, ottengono prestazioni migliori nel rilevamento di attacchi furtivi, e che l’addestramento distribuito riduce significativamente i tempi di calcolo. Il framework proposto è generalizzabile a diversi dataset e fornisce indicazioni pratiche per l’adozione di NIDS scalabili in ambienti di calcolo ad alte prestazioni.

Scheda breve

Scheda completa

Scheda completa (DC)

	Facoltà/Dipartimento
	
				Dipartimento di Ingegneria "Enzo Ferrari"
			
	Corso di studio
	
				Ingegneria informatica
			
	Anno Accademico
	
				2024
			
	Titolo inglese
	
				Distributed Training in Traditional ML-based and GNN-based NIDS
			
	Abstract in italiano
	
				This thesis investigates the optimization of distributed training techniques for Network Intrusion Detection Systems (NIDS), comparing Graph Neural Network (GNN)-based approaches with traditional machine learning models. Starting from NetFlow-based public datasets such as UNSW-NB15 and ToN-IoT, a modular and scalable pipeline was developed to preprocess the data, build graph representations, and enable efficient training on multi-GPU architectures. GNNs were implemented using PyTorch and DGL with DistributedDataParallel, while classical models (e.g., Random Forests, XGBoost) were parallelized using Dask and cuML. Experimental results show that GNNs benefit from the relational structure of network traffic and achieve better detection performance on stealthy attacks, while distributed training significantly reduces time-to-solution. The proposed framework is generalizable to multiple datasets and provides practical insights for deploying scalable NIDS in high-performance computing environments.
			
	Parola chiave
	
				NIDS
GNN
Distributed Training
Multi-GPU Optimizati
Cybersecurity
			
	Relatore
	
				MARCHETTI, MIRCO
			
	Controrelatore
	
				GALLI, DIMITRI
			
	Appare nelle tipologie:
	
				Lauree Magistrali

File in questo prodotto:

File	Dimensione	Formato
Caputo.Danilo.pdf accesso aperto Dimensione 1.11 MB Formato Adobe PDF Visualizza/Apri	1.11 MB	Adobe PDF	Visualizza/Apri

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14251/3410

Distributed Training in Traditional ML-based and GNN-based NIDS Allenamento distribuito nei NIDS tradizionali basati su ML e GNN

CAPUTO, DANILO

2024/2025

Abstract

Scheda breve Scheda completa Scheda completa (DC)

Informazioni

Conferma cancellazione

Scheda breve

Scheda completa

Scheda completa (DC)