From Grades to Recovery: A New Way to Quantify Intrinsic Capacity. A Theoretically Grounded Approach to Clinical Index Construction Using Social Ranking and Symbolic Machine Learning

The concept of Intrinsic Capacity (IC), introduced by the World Health Organization (WHO), reflects the composite of an individual’s physical and mental capacities and plays a crucial role in assessing functional health in older adults. However, due to its multidimensional nature, there is currently no standardized method to quantitatively assess IC using real-world clinical data. This thesis proposes a novel, interpretable, and data-driven framework to estimate, rank, and model Intrinsic Capacity from a set of 14 validated clinical questionnaries. While these scores are universal and applicable to any population, our goal is to develop a tool, a direct formula, that enables the construction of an Intrinsic Capacity index tailored to a specific population. This tool should be suitable for use in monitoring contexts and based on the clinical characteristics relevant to that particular group; in our case, individuals affected by Long COVID. As a first step, we aim to construct a single rank derived from the IC features. To achieve this, we need to aggregate 14 distinct variables into a unified score, which will also enable a ranking. The Majority Judgment (MJ) method is then applied to generate a majority grade for each individual, resulting in a population-wide ranking of IC. As a social ranking method, MJ aggregates the judgments of multiple evaluators to produce a global ranking of individuals. Specifically, it takes as input, for each individual (candidate), the 14 values assigned by the IC features, which are interpreted as scores or votes given by 14 judges, each representing a distinct IC dimension. For this process to be meaningful and interpretable, these scores must be both comparable and ordinal. This necessitates transforming the original continuous variables into five ordinal categories, ranging from very low to very high, using an optimized binning strategy designed to preserve variance and inter-patient diversity. The consistency of the ranking is then validated by its correlation with the clinical outcome healed. To develop a more tailored index for the patients under consideration and thereby enhance the clinical applicability of the model, symbolic regression, a symbolic machine learning technique aimed at discovering mathematical expressions that best reproduces the IC ranking, is performed not on the original 14 IC features, but on a new set of more specific-purpose covariates. This approach yields an interpretable and portable formula based on covariates whose define a precise population: Long COVID's patients. The expression output closely reflects the IC grade obtained in the first phase, providing a clinically meaningful tool to characterize the IC ranking of this defined population. In addition, it reliably predicts recovery outcomes.

Il concetto di capacità intrinseca (Intrinsic Capacity, IC), introdotto dall’Organizzazione Mondiale della Sanità (OMS), riflette la combinazione delle capacità fisiche e mentali di un individuo e svolge un ruolo cruciale nella valutazione della salute funzionale negli anziani. Tuttavia, a causa della sua natura multidimensionale, attualmente non esiste un metodo standardizzato per valutare quantitativamente l'IC utilizzando dati clinici reali. Questa tesi propone un nuovo framework interpretabile e basato sui dati per stimare, classificare e modellare la capacità intrinseca a partire da un insieme di 14 questionari clinici validati. Sebbene questi punteggi siano universali e applicabili a qualsiasi popolazione, l’obiettivo è sviluppare uno strumento, una formula diretta, che consenta la costruzione di un indice di capacità intrinseca personalizzato per una popolazione specifica. Tale strumento dovrebbe essere adatto all’uso in contesti di monitoraggio e basato sulle caratteristiche cliniche rilevanti per quel particolare gruppo; nel nostro caso, individui affetti da Long COVID. Come primo passo, si intende costruire un unico punteggio di classificazione derivato dalle caratteristiche dell’IC. Per raggiungere questo obiettivo, è necessario aggregare 14 variabili distinte in un punteggio unificato, che consenta anche l’ordinamento della popolazione. Viene quindi applicato il metodo del Majority Judgment (MJ) per generare un giudizio di maggioranza per ciascun individuo, ottenendo una classifica globale della popolazione in termini di IC. Come metodo di ordinamento sociale, MJ aggrega i giudizi di più valutatori per produrre una classifica complessiva degli individui. Nello specifico, prende in input, per ciascun candidato (individuo), i 14 valori assegnati dalle caratteristiche dell’IC, interpretandoli come punteggi o voti espressi da 14 giudici, ciascuno rappresentante una diversa dimensione dell’IC. Affinché questo processo sia significativo e interpretabile, tali punteggi devono essere confrontabili e ordinali. Ciò richiede la trasformazione delle variabili continue originali in cinque categorie ordinali, che vanno da molto bassa a molto alta, utilizzando una strategia di binning ottimizzata per preservare la varianza e la diversità tra pazienti. La coerenza della classifica viene quindi validata attraverso la sua correlazione con l’esito clinico "guarito". Per sviluppare un indice più mirato per i pazienti considerati e quindi migliorarne l’applicabilità clinica, viene effettuata la regressione simbolica, una tecnica di apprendimento automatico simbolico finalizzata a scoprire espressioni matematiche che riproducano al meglio il punteggio IC. Tale analisi non viene svolta sulle 14 caratteristiche originarie dell’IC, bensì su un nuovo insieme di covariate più specifiche e pertinenti, che caratterizzano in modo preciso la popolazione in esame: i pazienti con Long COVID. Il risultato è una formula interpretabile e portabile, basata su covariate che definiscono specificamente questa popolazione. L’espressione ottenuta riflette fedelmente il punteggio IC derivato nella prima fase, offrendo uno strumento clinicamente significativo per caratterizzare il livello di IC nella popolazione definita, oltre a fornire una previsione affidabile degli esiti di guarigione.