MISURA

Dopo il linguaggio, la più grande invenzione dell’umanità è rappresentata dalla possibilità di misurare, attraverso i numeri, entità importanti per la nostra vita, valutarne l’evoluzione nel tempo e studiare la relazione che esiste tra di loro, in modo da consentirci di capire dove siamo, ciò che abbiamo e quanto vale la pena di investire per raggiungere determinati obiettivi. La scienza è impossibile senza una batteria, in continua evoluzione, di misure stabili. La storia della misura, tuttavia, non ha inizio nell’ambito della matematica o della scienza, ma in quelli del commercio e delle costruzioni. Molto prima che la scienza emergesse come una professione, nel commercio, nell’architettura, nella politica e anche nel pensiero filosofico-morale, era ben nota l’esigenza di unità intercambiabili di valore immutabile.
Cominciamo col ricordare due punti di drammatica svolta nella storia politica che mettono in evidenza la forza morale del nostro bisogno di misure stabili. Un’entità di 7/10 costituiva un dogma di fede tra i musulmani del VII secolo. Alcuni leader musulmani furono aspramente censurati per l’utilizzo di standard non ‘giusti’. Nel 723 d.C., nella città di Damasco, il califfo ‘Umar b. ‘Abd al-‘Aziz così decise: «La gente di al-Kufa è stata colpita da […] pratiche malvagie imposte loro da esattori delle tasse. La legge più giusta è […] la giustizia e la buona condotta […] ti ordino di prendere delle imposte solo in base a 7/10» (S.D. Sears, A Monetary History of Iraq and Iran, 1997). La Magna Carta concessa nel 1215 da Giovanni, re d’Inghilterra, stabilì che: «Ci deve essere una misura per il vino in tutto il nostro regno, una per la birra, una misura per il grano, e una per l’ampiezza della stoffa…» (ibidem). Questi eventi ci ricordano che il commercio e la politica sono la fonte di unità stabili per lunghezza, area, volume e peso. È stato poi lo sviluppo del motore a vapore che ha determinato l’individuazione delle nostre moderne misure di temperatura e pressione. Il successo di tutta la scienza poggia su questi risultati commerciali e di ingegneria. Sebbene la matematica non abbia avviato queste pratiche, scopriremo che è la matematica della misurazione a fornire il fondamento ultimo per l’applicazione pratica e la validità teorica delle misure veramente ‘utili’, ovvero quelle unanimemente riconosciute come universali.

La misura dei fenomeni ritenuti ‘non misurabili’ e le graduatorie
La storia dell’umanità è stata dunque segnata dalla ricerca di metodi ‘oggettivi’ per quantificare le varie entità con cui costantemente si ha a che fare nella vita di tutti i giorni. Una visione ristretta del problema potrebbe indurre ad affermare che esistono entità misurabili attraverso numeri (peso, lunghezza, temperatura, ecc.) ed entità non misurabili (motivazione, livello di apprendimento della matematica, grado di depressione, ecc.). Una banale riflessione sulle probabili difficoltà incontrate dagli uomini primitivi nella determinazione del peso fa subito comprendere, tuttavia, che ciò che oggi appare non misurabile forse lo è solo a causa di una carenza di adeguati strumenti. La sfida che oggi si presenta agli scienziati sociali è proprio quella dell’individuazione di metodi ‘oggettivi’ nell’ambito di fenomeni, a torto, definiti ‘non misurabili’. In molte attività umane – sport, istruzione, finanza, ricerca, formazione professionale, psicologia – gli attori e/o le entità in gioco vengono sottoposti al giudizio di esperti riguardo ad aspetti difficilmente misurabili, detti ‘tratti latenti’, di importanza determinante per l’attività medesima. Nello sport, ad esempio, le gare di tuffo o di ginnastica prevedono l’intervento di apposite giurie al fine di valutare caratteristiche come lo ‘stile’ e la ‘perfezione’: questi rappresentano tratti latenti e si fa ricorso a giurie proprio perché non esistono strumenti di misura per valutarli, come invece il cronometro o il metro consentono di fare nelle gare di corsa o di lancio del peso. Nel campo dell’istruzione, le prove degli studenti vengono valutate dagli insegnanti o dalle commissioni d’esame, e il curriculum e le prove degli insegnanti, a loro volta, dai commissari delle commissioni di concorso. In ambito finanziario, le società di rating esprimono giudizi nei confronti del grado di rischiosità delle aziende ai fini dell’accesso al credito, in base alla documentazione contabile e ad altri indicatori economici. Nella ricerca, i progetti e l’attività dei ricercatori vengono sottoposti alla valutazione dei loro pari (peer review) sulla base di criteri relativi al progetto stesso e alla produzione scientifica. Nell’istruzione professionale, i progetti formativi vengono sottoposti al giudizio di esperti nell’ambito di bandi di concorso per l’accesso ai finanziamenti sulla base dei criteri previsti dal bando. Ai ristoranti, infine, vengono assegnate ‘stelle’ e ‘forchette’ da parte di giudici che ne degustano pietanze e vini. Come ottenere delle misure ‘adeguate’ e ‘moralmente forti’ di questi tratti latenti?
Una soluzione parziale è stata introdotta da tempo attraverso l’impiego di test, ovvero batterie di domande (o prove) connesse all’entità latente da misurare: test psicologici, attitudinali, di conoscenza, ecc. L’idea è semplice: valutare il livello raggiunto da un individuo attraverso le risposte date, o le performance osservate nelle prove. Le quantità che si ottengono attraverso questi test sono tipicamente dei punteggi (numero di risposte esatte, numero di prove superate, eventualmente pesate rispetto al grado di completezza raggiunto). Il problema fondamentale di questi punteggi (o score) è che si tratta di misure di tipo ordinale e non vere e proprie come il peso, o la temperatura. In un settore come, ad esempio, la psicologia, il punteggio raggiunto da un individuo viene associato ad un certo livello di patologia attraverso la comparazione tra il punteggio stesso e le diverse patologie, ben note agli esperti del settore; anche nel campo della misura dei livelli di apprendimento il punteggio raggiunto viene spesso associato ad una descrizione delle conoscenze dimostrate. Tuttavia, nella maggior parte dei casi, i punteggi vengono utilizzati per stilare delle graduatorie tra gli individui, e in molte situazioni ciò può bastare: ad esempio, in una gara di corsa, si può anche fare a meno di misurare i tempi di percorrenza e ci si può limitare a osservare l’ordine di arrivo; ma se si volesse studiare come nel corso degli anni siano migliorate le performance degli atleti, l’ordine di arrivo sarebbe di ben poco aiuto e sarebbe necessario ricorrere a vere misure come il tempo di percorrenza. Inoltre, a fini di ricerca, le graduatorie hanno un senso solo se viste in rapporto ad una popolazione rappresentativa dell’intero universo di potenziali individui da misurare: così, sapere che ci si colloca nel decimo o nel novantesimo percentile nell’ambito delle conoscenze di matematica rilevate nelle indagini OCSE-PISA è senz’altro di qualche ausilio per comprendere la situazione di un Paese. Tuttavia, trasferendo l’esempio al problema della misura del peso corporeo, utilizzare il metodo delle graduatorie, in rapporto ad una popolazione rappresentativa, significherebbe che al mattino si andrebbe sulla bilancia, poi si registrerebbe il peso; dopodiché si dovrebbe attendere una dispendiosa indagine nazionale o internazionale, su un campione indicativo, per sapere in quale percentile ci si collochi: sapere, invece, che il proprio peso supera gli 80 chili fornisce una informazione immediata che consente di prendere tempestivi provvedimenti (una dieta, ad esempio). Qui si capisce anche che la costanza nel tempo della popolazione di riferimento può essere un grosso problema: in un mondo di obesità crescente, sapere che ci si colloca sotto la media può non costituire un risultato desiderabile ai fini del mantenimento del peso forma. Come ulteriore esempio dei rischi delle graduatorie in rapporto ad una popolazione rappresentativa, si può fare riferimento al grave errore di giudizio in cui è stata per anni (e ancora continua ad essere) intrappolata la ricerca educativa nel nostro Paese: l’Italia partecipa da molti anni alle indagini internazionali sui livelli di conoscenza degli scolari di 4 e 8 anni (TIMSS) e dei quindicenni (OCSE-PISA). Orbene, nell’indagine TIMSS l’Italia si colloca sopra la media internazionale, mentre in quella OCSE-PISA si trova al di sotto: la conclusione comune ai ricercatori in questo ambito è stata che «la scuola elementare italiana sarebbe molto buona», mentre, visto il calo di conoscenze a 15 anni, con molta probabilità, «la scuola media italiana potrebbe presentare dei problemi di efficacia educativa». Ciò che questi ricercatori dimenticano è che gli universi delle due indagini sono completamente diversi: nella prima (TIMSS), sono presenti Paesi con grossi problemi come il Bangladesh; alla seconda (OCSE-PISA), invece, partecipano tutti i Paesi più sviluppati. Se si fa un piccolo sforzo di elaborazione, selezionando i soli Paesi coinvolti in entrambe le indagini (purtroppo circa cinque compreso il nostro), quello che si scopre è che l’Italia si colloca sotto i livelli medi sia nei primi anni (4 e 8) che a 15 anni: evidentemente la conoscenza è qualcosa che cresce e si accumula nel tempo e lo studio di tale fenomeno richiede strumenti ben più sofisticati che non le semplici graduatorie. Se si vuole quindi affrontare in maniera scientifica lo studio di questi fenomeni, l’unica soluzione è quella di darsi regole rigorose per la costruzione di misure oggettive, al pari di quanto l’umanità ha fatto per il peso e la temperatura.

La matematica e la misura
Le misure concrete che ci aiutano a rendere migliore la vita sono così familiari che raramente si pensa ‘come’ o ‘perché’ funzionano. Una storia matematica della misura, tuttavia, ci porta a riflettere sui requisiti teorici che rendono possibile e pratico il successo di quest’ultima.
- Le misure sono sempre inferenze,
- ottenute per approssimazione statistica,
- di una quantità unidimensionale,
- conteggiate in unità astratte, di dimensione fissa, le quali sono
- indipendenti da fattori esterni.
Più formalmente, in ogni azione di misura è sempre possibile individuare tre insiemi: l’insieme A dei soggetti per i quali si vuole valutare il ‘tratto latente’, l’insieme B delle prove in grado di fornire informazioni utili alla misurazione del ‘tratto latente’, l’insieme C dei giudici che osservano il comportamento dei soggetti nelle prove ed esprimono un giudizio. Il giudizio su un particolare soggetto a A in una certa prova b B sottoposta alla valutazione del giudice c C può essere visto come il risultato dell’incontro tra a, b, c ossia r = r(a,b,c). L’insieme di tutti i possibili risultati costituisce l’insieme R. Da un punto di vista matematico la collezione di questi quattro insiemi F = {A,B,C,R} viene definita sistema di riferimento (a tre fattori) per la misura del ‘tratto latente’ (G. Rasch, On Specific Objectivity, 1977, www.rasch.org/memo18.htm). Poiché tali valutazioni possono influenzare, in maniera decisiva, carriera, successo e reddito degli individui o degli enti sottoposti ad esame, è necessario eliminare, o ridurre al minimo, il grado di soggettività nella misura dei tratti latenti. Una via che intuitivamente si è seguita, in questo senso, è costituita dalla fissazione di prove comuni a tutti i soggetti da valutare, che non richiedano l’intervento di giudici (come nella valutazione delle abilità matematiche – ‘tratto latente’ – che spesso vengono accertate attraverso test a risposta multipla). In questo caso il sistema di riferimento si riduce a due fattori F = {A,B,R} e il risultato r diventa la funzione r = r(a,b) (nel caso più semplice, se b è una domanda e il soggetto a sbaglia la risposta, allora r = 0, mentre se la risposta è giusta r = 1); si parla allora di un sistema di riferimento a due fattori. Tuttavia, è spesso impossibile fare a meno dei giudici per la valutazione di prove che si ritengono fondamentali per la misura del ‘tratto latente’, e si cerca di ridurre il grado di soggettività istruendo i valutatori in merito ai giudizi da assegnare, in relazione al comportamento manifestato dai soggetti nelle diverse prove: concorsi e valutazioni di progetti, come pure la correzione di un tema o di un problema, o la verifica di una prova orale prevedono criteri (elementi su cui esprimere il giudizio, che vengono a far parte dell’insieme B) e punteggi (modo in cui esprimere il giudizio) ben definiti; nella valutazione dell’indipendenza psico-fisica alcune prove fisiche e psicologiche (scala FIM, http://scalafim.com) guidano il personale specializzato nell’assegnazione di punteggi relativamente a ciascun test per ogni paziente. Purtroppo, anche se sottoposti a formazione specifica, è impossibile che una molteplicità di giudici si comporti all’unisono, e pure un livello di concordanza elevato è difficilmente raggiungibile: come riferisce J.M. Linacre (www.rasch.org/memo61.htm), in uno studio volto a stabilire quanto fosse grande la concordanza tra giudici in una situazione ottimale (attraverso l’uso di valutatori esperti, di criteri di valutazione ben strutturati, e la registrazione di comportamenti di individui di livello chiaramente differente), questa raggiunse solo l’80% e le valutazioni espresse dai giudici risultarono alquanto imperfette sulla base dei criteri stabiliti (cfr. E.F. Gruenfeld, Performance Appraisal, 1981). Pertanto, anziché ritenere di poter rimuovere le differenze tra i giudici attraverso strategie di formazione, o fare finta che queste differenze non esistano ‘per decreto ministeriale’, sarebbe molto meglio cercare di misurare quanto grandi esse siano, provvedendo a rimuoverle attraverso sistemi di riferimento a tre fattori che ne contemplino esplicitamente l’esistenza. Tale modello deve realisticamente partire dal riconoscimento del fatto che la valutazione delle prove o delle attività, di un individuo o di un ente, da parte di giudici, è influenzata da tre fattori fondamentali: l’abilità del soggetto, la difficoltà delle diverse prove, la severità del giudice.

L’oggettività specifica
La base di partenza per la costruzione di un simile modello è costituita dalla ricerca del matematico danese Georg Rasch (Probabilistic Models for Some Intelligence and Attainment Tests, 1960) il quale, nel porsi il problema di individuare ciò che caratterizza la superiorità delle scienze naturali rispetto a quelle umane, giunse alla conclusione che il concetto di ‘scienza’ è legato alla possibilità di sviluppare metodi per trasformare osservazioni in misure, secondo regole che soddisfano il principio dell’oggettività specifica (cfr. anche E. Gori, G. Plazzi e M. Sanarico, La valutazione e la misurazione nelle scienze sociali: oggettività specifica, statistiche sufficienti e modello di Rasch; E. Gori e G. Vittadini, Sussidiarietà, Valutazione e Capitale Umano, entrambi in «Non Profit», 3, 2005). In termini intuitivi tale principio si riferisce al fatto che i metodi di stima delle scienze naturali consentono di misurare caratteristiche specifiche di un soggetto senza che il processo di misurazione risulti influenzato da peculiarità del soggetto diverse da quella di interesse, da altri soggetti, e da particolarità dello strumento utilizzato a tale scopo. Ad esempio, quando si calcola il peso di un individuo, il risultato non è condizionato dalla sua altezza (anche se questa è correlata con il peso), dal colore dei suoi occhi o dalla bellezza del suo sorriso, né dal peso di altri soggetti (come già sottolineato, nella valutazione dell’abilità o della competenza di uno studente, la maggior parte dei metodi oggi vigenti fornisce solo il percentile in cui si colloca lo studente – rispetto ad una popolazione di riferimento –, per cui tale misura viene a dipendere dagli altri soggetti!); e, a meno di errori casuali, esso non cambia al variare del tipo di bilancia utilizzato, né l’uso di una bilancia che misura in chili può – a parte una trasformazione monotòna – dare una rappresentazione dell’entità di interesse (il peso del soggetto) diversa da una che lo fa in libbre. Rasch chiarisce ulteriormente il concetto di oggettività specifica osservando che ogni procedimento di misura scaturisce sempre da un ‘confronto’ tra gli elementi dell’insieme A – cioè i soggetti (ad esempio gli individui di cui si desidera determinare il peso) – e gli elementi dell’insieme B – ossia le prove (i pezzi di piombo che si mettono su uno dei piatti della bilancia). Quando gli elementi di A entrano in contatto con gli elementi di B, dalle coppie (a,b) scaturiscono i risultati che costituiscono l’insieme R. In alcuni casi questi possono essere dicotomici (la bilancia pende a destra o a sinistra, la risposta è giusta o sbagliata), in altri politomici (come il grado di soddisfazione, o il giudizio espresso su una scala da 1 a 4), ma in altri ancora possono essere di tipo discreto, come quando si misura l’altezza di una persona con un metro che contiene solo l’indicazione dei centimetri, o come quando si conta il numero di errori in una composizione scritta. Se il contatto tra il soggetto e la prova produce un risultato ben determinato r = r(a,b), detto ‘reazione’, si dice allora che F = {A,B,R} costituisce un sistema di riferimento (bifattoriale) di tipo deterministico. In altre situazioni, che sono tipiche delle scienze umane, ma anche della fisica quantistica, la reazione è influenzata da errori e fattori casuali per cui r è una variabile aleatoria con una certa distribuzione P(R = r) = f(a,b) che dipende dal soggetto e dalla prova: in questo caso si parla allora di sistemi di riferimento di tipo probabilistico. Orbene, nel caso di sistemi deterministici il principio di oggettività specifica, come spiega Rasch (On Specific Objectivity cit.), è legato al fatto che quando si confrontano le reazioni r1 = r(a1,b) e r2 = r(a2,b) di due soggetti a1 e a2, conseguenti al contatto con una medesima prova b, tale confronto u(r1,r2) può dipendere dalla particolare prova b prescelta: ossia u(r1,r2) = u(r(a1,b),r(a2,b)) (l’insieme dei possibili risultati u del confronto costituisce l’insieme U che non necessariamente è costituito da numeri). Rasch afferma che un sistema di riferimento (di tipo deterministico) è caratterizzato dalla proprietà dell’oggettività specifica se la funzione u(r1,r2) = u(r(a1,b),r(a2,b)) = v(a1,a2) non dipende da b per qualsiasi coppia di soggetti e per qualsiasi prova. L’oggettività si riferisce appunto al fatto che il risultato del confronto tra due soggetti dell’insieme A è indipendente dalla scelta dalla prova b con cui i due soggetti entrano in contatto e da qualsiasi altro elemento dell’insieme A. Il concetto di specificità si riferisce al fatto che l’oggettività di questi confronti è ristretta al sistema di riferimento F. Il concetto di oggettività specifica viene esteso al caso di sistemi di riferimento multifattoriali in cui la reazione deriva dal contatto fra tre o più fattori. Quindi, non solo due fattori come nel caso del soggetto e della prova ma, ad esempio, tre fattori: soggetti, prove e giudici. Il lettore interessato potrà trovare definizione formale del concetto di oggettività specifica nel lavoro di Rasch (ibidem).

Oggettività specifica e sufficienza
Ovviamente ogni processo di misurazione è soggetto ad errore, per cui è necessario ricorrere agli strumenti di calcolo delle probabilità per gestire i problemi inferenziali che ne derivano. Da un sistema di riferimento deterministico è dunque necessario passare ad un sistema di riferimento probabilistico, dove la reazione xni è una variabile casuale Xni caratterizzata da un distribuzione di probabilità P(Xni) che, in generale, potrà dipendere dai parametri θn e δi . Tali parametri in questo nuovo contesto – caratterizzato anche dall’errore e dal caso, come nella meccanica quantistica – diventano l’oggetto principale dell’inferenza, attraverso l’evidenza empirica costituita dalle reazioni osservate xni. I lavori di Rasch (Probabilistic Models… cit.; On General Laws and the Meaning of Measurement in Psychology, 1961; Mathematical Theory of Objectivity and its Consequences for Model Construction, 1968; On Specific Objectivity cit.) favoriscono la scoperta della stretta connessione tra l’oggettività specifica, da un lato, e le statistiche sufficienti, dall’altro, fino a giungere al risultato di E.B. Andersen (Sufficient Statistics and Latent Trait Models, in «Psychometrika», 42, 1977), il quale dimostra che i sistemi di riferimento deterministici caratterizzati dalla proprietà dell’oggettività specifica sono i soli che ammettono l’esistenza di statistiche sufficienti per i parametri, una volta trasposti in chiave probabilistica. Da questo consegue che sistemi di riferimento probabilistici caratterizzati da modelli P(Xni) che ammettono statistiche sufficienti costituiscono la condizione necessaria e sufficiente per l’oggettività specifica del sistema di riferimento deterministico corrispondente. Il lavoro di Rasch, e successivamente quello di altri ricercatori (B.D. Wright, Sample-free Test Calibration and Person Measurement, 1968, Solving Measurement Problems with the Rasch Model, 1977; D. Andrich, A Rating Scale Formulation for Ordered Response Categories, 1978, Scaling Attitude Items Constructed and Scored in the Likert Tradition, 1978, Application of a Psychometric Rating Model to Ordered Categories Which Are Scored with Successive Integers, 1978; J.M. Linacre, Many-facet Rasch Measurement, 1989), porta ad individuare una classe di modelli per la distribuzione di probabilità P(Xni) che, ammettendo l’esistenza di statistiche sufficienti, sono in grado di assicurare la proprietà dell’oggettività specifica. Ma a questo punto viene in primo piano la questione relativa al fatto che gli elementi del sistema di riferimento deterministico F = {A,B,R}, sottostante il sistema di riferimento probabilistico, non devono contraddire il modello, affinché sia possibile che il processo inferenziale basato sulla osservazione delle reazioni xni (realizzazione di una variabile casuale Xni) porti a stime di θn e δi che costituiscano vere ‘misure’ (nel senso dell’oggettività specifica). In questo senso i modelli probabilistici di Rasch non sono, al contrario di quanto usualmente si può credere, solo strumenti statistici per la rappresentazione e la sintesi della realtà osservata, ma piuttosto una guida nella ‘scoperta’ di sistemi di riferimento utili per misurare entità latenti nell’ambito di fenomeni di interesse che, come nella meccanica quantistica, sono dipendenti dal contesto di osservazione e dal caso. Si noti che l’esistenza di statistiche sufficienti per questi modelli, oltre la proprietà dell’oggettività specifica, garantisce anche la possibilità di ottenere stimatori con proprietà desiderabili come la correttezza e la consistenza, a patto di utilizzare metodi di stima adeguati (cfr. R.K. Hambleton e H. Swaminathan, Item Response Theory, 1985). Tali proprietà di correttezza e consistenza non sono invece garantite per altri modelli della classe IRT che nel ‘generalizzare’ il modello di Rasch perdono la proprietà della sufficienza portando la ricerca di misure su strade improduttive e prive di oggettività, oltre a presentare problemi di stima non facilmente risolvibili.
Visti questi risultati teorici (oltre che pratici, come mostra l’ormai nutrita letteratura sulle applicazioni dei modelli di Rasch), si può ritenere che, ai fini della costruzione di misure oggettive, ci sia una sola strada possibile: l’impiego dei modelli di Rasch. Quanto prima la comunità scientifica giungerà al riconoscimento di questo, tanto prima le scienze sociali riusciranno a dare quel contributo di conoscenza che ancora stenta ad emergere.

multiverso

11