Sviluppo di un Classificatore di Anomalie Industriali Basato su NLP e Machine Learning

Managing anomaly reports in industrial settings has long been a critical challenge due to the unstructured textual form of natural language used by operators. The aim of this thesis is to develop an automated pipeline based on Natural Language Processing (NLP) and Machine Learning techniques for anomaly classification, in order to implement predictive maintenance strategies. The initial approach relied on unsupervised learning techniques, such as embedding algorithms for text vectorization and clustering algorithms such as HDBSCAN, combined with dimensionality reduction techniques such as UMAP, for identifying and clustering similar anomalies. However, the analysis of the results highlighted limitations related to the semantic homogeneity of the clusters and the management of the outliers, making a change of direction necessary. We then moved on to the development of a supervised classification model, trained on a labeled dataset derived from the most consistent clusters obtained from the initial clustering process, which was manually refined. The evolution of the project has led to an increasing automation of this procedure. After the initial definition of the classes, human intervention was replaced by an automated pipeline supported by Large Language Models (LLM). Generative Artificial Intelligence was used to automate anomaly labeling, validate anomaly-class consistency, and, using advanced Prompt Engineering techniques, generate synthetic datasets for dataset balancing, useful for training the classifier. The end result is an automatic classifier integrated into a comprehensive pipeline that significantly reduces human intervention and provides operators with information that is already structured and ready for use in predictive maintenance. Experimental tests confirm that the hybrid approach, supported by synthetic data and an automated validation process, offers better results than clustering alone. This lays the foundation for more effective decision support systems in industry.

La gestione delle segnalazioni di anomalie in ambito industriale rappresenta, da tempo, una sfida critica a causa della forma testuale non strutturata del linguaggio naturale utilizzato dagli operatori. L’obiettivo del lavoro di tesi è lo sviluppo di una pipeline automatizzata basata su tecniche di Natural Language Processing (NLP) e Machine Learning per la classificazione delle anomalie, al fine di attuare strategie di manutenzione predittiva. L'approccio iniziale si è basato su tecniche di apprendimento non supervisionato, come algoritmi di embedding per la vettorizzazione del testo e algoritmi di clustering come HDBSCAN, combinati con tecniche di riduzione dimensionale come l’UMAP, per l’identificazione e il raggruppamento di anomalie simili. Tuttavia, l'analisi dei risultati ha messo in evidenza limiti legati all'omogeneità semantica dei cluster e alla gestione degli outlier, rendendo necessario un cambio di direzione. Si è quindi passati allo sviluppo di un modello di classificazione supervisionata, addestrato su un dataset etichettato derivato dai cluster più coerenti ottenuti dal processo di clustering iniziale, che è stato affinato manualmente. L'evoluzione del progetto ha portato a una crescente automazione di questa procedura. Dopo la definizione iniziale delle classi, l'intervento umano è stato sostituito da una pipeline automatizzata supportata da Large Language Models (LLM). L'Intelligenza Artificiale Generativa è stata utilizzata per automatizzare l'etichettatura delle anomalie, validare la coerenza anomalia-classe e, tramite tecniche avanzate di Prompt Engineering, generare dataset sintetici per il bilanciamento del dataset, utile per l'addestramento del classificatore. Il risultato finale è un classificatore automatico integrato in una pipeline completa che riduce notevolmente l’intervento umano e fornisce agli operatori informazioni già strutturate e pronte per l’impiego in ambito di manutenzione predittiva. I test sperimentali confermano che l'approccio ibrido, supportato da dati sintetici e da un processo di validazione automatizzato, offre risultati migliori rispetto al solo clustering. Ciò pone le basi per sistemi di supporto decisionale più efficaci in ambito industriale.