Questa tesi analizza l’ottimizzazione delle tecniche di addestramento distribuito per i sistemi di rilevamento delle intrusioni di rete (NIDS), confrontando approcci basati su Graph Neural Network (GNN) con modelli di machine learning tradizionali. A partire da dataset pubblici basati su NetFlow, come UNSW-NB15 e ToN-IoT, è stata sviluppata una pipeline modulare e scalabile per il pre-processing dei dati, la costruzione dei grafi e l’addestramento efficiente su architetture multi-GPU. Le GNN sono state implementate utilizzando PyTorch e DGL con DistributedDataParallel, mentre i modelli classici (es. Random Forest, XGBoost) sono stati parallelizzati tramite Dask e cuML. I risultati sperimentali dimostrano che le GNN, grazie alla struttura relazionale del traffico di rete, ottengono prestazioni migliori nel rilevamento di attacchi furtivi, e che l’addestramento distribuito riduce significativamente i tempi di calcolo. Il framework proposto è generalizzabile a diversi dataset e fornisce indicazioni pratiche per l’adozione di NIDS scalabili in ambienti di calcolo ad alte prestazioni.

This thesis investigates the optimization of distributed training techniques for Network Intrusion Detection Systems (NIDS), comparing Graph Neural Network (GNN)-based approaches with traditional machine learning models. Starting from NetFlow-based public datasets such as UNSW-NB15 and ToN-IoT, a modular and scalable pipeline was developed to preprocess the data, build graph representations, and enable efficient training on multi-GPU architectures. GNNs were implemented using PyTorch and DGL with DistributedDataParallel, while classical models (e.g., Random Forests, XGBoost) were parallelized using Dask and cuML. Experimental results show that GNNs benefit from the relational structure of network traffic and achieve better detection performance on stealthy attacks, while distributed training significantly reduces time-to-solution. The proposed framework is generalizable to multiple datasets and provides practical insights for deploying scalable NIDS in high-performance computing environments.

Distributed Training in Traditional ML-based and GNN-based NIDS Allenamento distribuito nei NIDS tradizionali basati su ML e GNN

CAPUTO, DANILO
2024/2025

Abstract

Questa tesi analizza l’ottimizzazione delle tecniche di addestramento distribuito per i sistemi di rilevamento delle intrusioni di rete (NIDS), confrontando approcci basati su Graph Neural Network (GNN) con modelli di machine learning tradizionali. A partire da dataset pubblici basati su NetFlow, come UNSW-NB15 e ToN-IoT, è stata sviluppata una pipeline modulare e scalabile per il pre-processing dei dati, la costruzione dei grafi e l’addestramento efficiente su architetture multi-GPU. Le GNN sono state implementate utilizzando PyTorch e DGL con DistributedDataParallel, mentre i modelli classici (es. Random Forest, XGBoost) sono stati parallelizzati tramite Dask e cuML. I risultati sperimentali dimostrano che le GNN, grazie alla struttura relazionale del traffico di rete, ottengono prestazioni migliori nel rilevamento di attacchi furtivi, e che l’addestramento distribuito riduce significativamente i tempi di calcolo. Il framework proposto è generalizzabile a diversi dataset e fornisce indicazioni pratiche per l’adozione di NIDS scalabili in ambienti di calcolo ad alte prestazioni.
2024
Distributed Training in Traditional ML-based and GNN-based NIDS
This thesis investigates the optimization of distributed training techniques for Network Intrusion Detection Systems (NIDS), comparing Graph Neural Network (GNN)-based approaches with traditional machine learning models. Starting from NetFlow-based public datasets such as UNSW-NB15 and ToN-IoT, a modular and scalable pipeline was developed to preprocess the data, build graph representations, and enable efficient training on multi-GPU architectures. GNNs were implemented using PyTorch and DGL with DistributedDataParallel, while classical models (e.g., Random Forests, XGBoost) were parallelized using Dask and cuML. Experimental results show that GNNs benefit from the relational structure of network traffic and achieve better detection performance on stealthy attacks, while distributed training significantly reduces time-to-solution. The proposed framework is generalizable to multiple datasets and provides practical insights for deploying scalable NIDS in high-performance computing environments.
NIDS
GNN
Distributed Training
Multi-GPU Optimizati
Cybersecurity
File in questo prodotto:
File Dimensione Formato  
Caputo.Danilo.pdf

accesso aperto

Dimensione 1.11 MB
Formato Adobe PDF
1.11 MB Adobe PDF Visualizza/Apri

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14251/3410