VIII International Meeting on Quantitative Methods for Applied Sciences
Dipartimento di Metodi Quantitativi
Università degli Studi di Siena
Certosa di Pontignano
11 –13 september 2006
Le determinanti della valutazione della didattica attraverso il parere degli studenti.
Stefano Campostrini, Lorenzo Bernardi, Debora Slanzi
ABSTRACT
In collecting students’ opinion about the quality of the teaching activities, quite often reliability (and validity) of questionnaires, answers, data, survey design, etc. are questioned. Unfortunately these discussions, popular among some teachers, are more based on feelings than on solid data analysis. In this paper, we try to address validity and reliability issues of results of the common (because compulsory for ministry regulation) evaluative surveys on university students carried out in all Italian universities.
There are two major questions to better focus these issues:
-what these surveys want to measure;
-how well they are doing this.
Concerning the first one, it is our opinion that the only goal of this kind of surveys (for several reasons that we will discuss in our presentation) is that of a surveillance of the quality of the teaching of the single teachers and of the complex of the organization. In this perspective, what is asked, in terms of reliability and validity, to the measures (indicators) is of being good enough ‘alarm bells’ to detect problematic situations. Consequently, in analysing reliability and validity in this context, it is of major importance to consider the possible influence of ‘subjective’ factors (typical in this kind of surveys) on the capability of the measures to detect problematic situation. Moreover, since several tools (questionnaires) have been used to produce these measures (over time, and among different universities), it is important also to study the robustness of these indicators to changes in questionnaire wording and structure.
First results here presented are from some analyses (on different questionnaires, different faculties, and different universities) on the internal structure of the students’ answers given to the different items. Particularly we have studied how the interest on the specific subject taught influences other opinion items concerning the quality of the teaching.
In doing this, an interesting and effective analysis technique has been used: Bayesian Network Analysis has been proved, in our case, to be highly effective for our purposes.
In our presentation we will discuss main results: the important confirmation of validity, reliability and robustness of the measures analysed in discriminating ‘problematic’ cases from others, and, on the other hand, the limit of the use of these measures to judge teachers’ relative values (ranking, etc.) given by the proved (in our analyses) influence of subjective aspects.
Sommario
Nelle indagini concernenti le opinioni sulla didattica svolte sugli studenti frequentati spesso si pongono problemi di affidabilità (e validità) degli strumenti di rilevazione, delle risposte date, del disegno di ricerca, ecc.. Spesso critiche e discussioni, frequenti anche tra diversi docenti, purtroppo, si fondano più su sensazioni che su solide analisi. Nel nostro lavoro tentiamo di affrontare tematiche legate all’affidabilità e validità dei risultati di queste comuni indagini valutative (ricordiamo l’obbligatorietà stabilita dal Ministero) realizzate in tutti gli Atenei italiani, analizzando i dati raccolti da queste.
Due sono gli aspetti fondamentali da affrontare per sviluppare, a nostro avviso correttamente queste tematiche:
-che cosa è possibile misurare con queste indagini;
-quanto bene riescano in questo compito.
A riguardo del primo punto, è nostra convinzione che l’unico obiettivo perseguibile per questo tipo di indagini (per una serie di motivi che discuteremo nel corso della nostra presentazione) è quello di una “sorveglianza” sulla qualità della didattica dei singoli docenti e dell’organizzazione nel suo complesso. In questa prospettiva il compito (e rispetto a questo si giudica validità ed affidabilità) di misure ed indicatori è quello di essere “campanelli di allarme” sufficientemente accorti nell’individuare situazioni problematiche. Di conseguenza, nell’analizzare affidabilità e validità, è di fondamentale importanza verificare quanto queste misure siano in grado di individuare e discriminare queste situazioni problematiche. Inoltre, dal momento che, nonostante gli sforzi ministeriali, la storia dello sviluppo di queste indagini ha condotto all’utilizzo di strumenti diversificati (nel tempo e tra realtà), si pone all’interesse il problema metodologico della verifica della robustezza degli indicatori rispetto a cambiamenti nella formulazione delle domande o nella struttura.
In questa sede verranno presentati i primi risultati di alcune analisi (svolte su questionari diversi, diverse Facoltà e diversi Atenei) sulla struttura interna delle risposte date dagli studenti ai diversi item del questionario. In particolare, abbiamo voluto verificare quanto l’interesse verso la materia insegnata (aspetto soggettivo) influenzi le opinioni su aspetti relativi alla qualità della didattica.
In questo studio, abbiamo utilizzato interessanti tecniche analitiche (sinteticamente discusse nella nostra presentazione), legate all’analisi di reti bayesiane, che si sono dimostrate particolarmente efficaci rispetto agli obiettivi dello studio.
Nella presentazione si discuteranno i risultati principali, che sembrano suggerire importanti conferme relative alla validità, affidabilità e robustezza delle misure analizzate nella loro capacità di discriminare casi problematici; d’altra parte, le analisi sembrano confermare i limiti di indicatori costruiti a partire dai dati di queste indagini nel misurare il valore relativo dei docenti (ordinamento, ecc..), data l’importante presenza di influenze di aspetti soggettivi.
1. Introduzione: valutare la valutazione
La valutazione, pratica abituale ormai anche nel nostro Paese, è entrata con modalità e tempi diversi anche nelle nostre università. Come in altri ambiti, la sfida oggi non è tanto nell’affermare il significato politico-culturale di questa operazione, ma quanto quello di aumentarne ruolo e incisività in nella prospettiva di un’istituzionalizzazione ormai affermata (Leone e Vecchi, 2003). Se da un lato pertanto è fondamentale riflettere sull’impatto reale della pratica valutativa (Patton, 1997; Bernardi et al., 2005), parallelamente si rende necessaria una riflessione, anche metodologica, sul valore e i limiti delle misure valutative, degli indicatori utilizzati. Il pericolo di assecondare mode valutative e processi di burocratizzazione della valutazione può essere infatti in buona parte sventato da un rigore metodologico (Campostrini, 2001) aiutato anche da una rilettura, metodologica e sostanziale, dei percorsi e dei modelli valutativi adottati.
Muovendo da queste convinzioni, si è tentato, all’interno di un progetto più ampio[1], di rivisitare la principale attività valutativa realizzata da tutte le università italiane: l’indagine sull’opinione degli studenti frequentanti. Di questa si è voluto vedere, da un lato l’impatto (risultati sono oggetto di altri interventi) dall’altro la “tenuta” dal punto di vista metodologico, studio quest’ultimo di cui qui vengono riportati i primi risultati.
Nelle indagini concernenti le opinioni sulla didattica svolte sugli studenti frequentati infatti si pongono problemi di affidabilità e validità degli strumenti di rilevazione, delle risposte date, del disegno di ricerca, ecc.. Spesso critiche e discussioni, frequenti anche tra diversi docenti, purtroppo, si fondano più su sensazioni che su solide analisi. Nel nostro lavoro tentiamo di affrontare tematiche legate all’affidabilità e validità dei risultati di queste comuni indagini valutative, partendo da un’analisi di dati da queste raccolti.
Due sono gli aspetti fondamentali da affrontare per sviluppare, a nostro avviso correttamente, queste tematiche:
-che cosa è possibile misurare con queste indagini;
-quanto bene riescano in questo compito.
.
Certamente validità ed affidabilità sono potenzialmente un problema in queste prassi valutative per una molteplicità di fattori. Innanzitutto, per impostazione, si svolgono solo su studenti frequentanti, non tenendo così conto di giudizi di soggetti non regolarmente frequentanti, di importante consistenza numerica (soprattutto in alcune Facoltà). Inoltre non si può negare che la scelta del non frequentare in alcuni casi di per sé costituisca un giudizio (ovviamente negativo) sul docente o sull’insegnamento in questione. Oltre a questo limite strutturale, ve ne sono altri dovuti alla soggettività delle risposte dati dagli studenti, dalla possibilità che il loro giudizio sull’efficacia del corso possa essere influenzato da una molteplicità di fattori, che vanno dalla reale capacità di apprezzare e giudicare “a caldo” le attività didattiche a quanto l’effettivo interesse per la materia possa influenzare i giudizi espressi.
Alcuni di questi aspetti non sono rimuovibili ponendo evidenti limiti interpretativi, altri sono potenziali limiti di validità e/o di affidabilità la cui presenza va attentamente analizzata e valutata: tali limiti vanno attentamente esaminati per attribuire all’azione valutativa più consapevoli significati, circoscrivendone portata, utilità e utilizzo, ridimensionando le tentazioni alla sua rinuncia ma assegnandole una più convinta collocazione. Allora, prima di analizzare validità e affidabilità di impianto e strumenti valutativi, la domanda fondamentale a cui dare risposta è: che cosa si vuole (e si può) misurare e dunque valutare con questo tipo di indagini?
E’ nostra convinzione (già espressa in altri interventi: Campostrini, 2003; Bernardi et al., 2005) che le indagini sugli studenti frequentanti possano ragionevolmente avere un duplice ruolo: di stimolo e di importante ritorno valutativo (in termini “formativi”, come direbbe Scriven – Scriven, 1991), e, sul fronte prettamente valutativo, come campanello d’allarme rispetto ad alcune situazioni di particolare criticità. Sempre sul fronte valutativo, in realtà a questa fondamentale funzione, si può aggiungerne una di livello “organizzativo”, di lettura di funzionamento del sistema (su quest’ultima però qui non ci soffermeremo). Certamente comunque, tornando al giudizio sul singolo insegnamento, non è a nostro avviso pensabile che la funzione valutativa di questo tipo di indagine sia di valutazione assoluta o, ancor peggio, di ordinamento qualitativo tra insegnamenti/docenti. Affidabilità e sensibilità degli strumenti infatti possono certamente consentire valide considerazioni sia a livello macro, sia sulle “code” delle distribuzioni (in particolare su quella di sinistra, ovvero sui casi particolarmente negativi), mentre la validità di confronti nella parte centrale della distribuzione può essere molto questionabile prima ancora che per motivi di affidabilità, per motivi di validità. Un docente che riceve un punteggio medio pari a tre (su una scala 1-10) è certamente un caso problematico, mentre non è assolutamente detto, per una molteplicità di fattori, che la performance di un docente con punteggi medi pari a 7,5 sia inferiore a quella di un docente con punteggi pari a 8. Altri potrebbero essere gli strumenti per valutare la qualità didattica, in assoluto, dei docenti. In alcune università straniere sono stati sperimentati e vengono regolarmente applicati, spesso comunque si basano su giudizi espressi da “pari” e non da “clienti”.
Individuati allora, da un punto di vista logico e metodologico, gli obiettivi possibili di questi strumenti valutativi, si può passare all’esame di quanto bene questa funzione venga svolta. Tra i limiti citati riemerge allora in maniera preponderante l’esame di quanto il giudizio (inteso come capacità di discriminare tra docenti almeno abbastanza buoni e docenti problematici) degli studenti possa essere influenzato da fattori esterni. Tra questi primo e più facilmente rilevabile è l’interesse per la materia.
Tra i diversi approcci possibili per valutare affidabilità e validità nell’accezione e nell’ambito ora descritti, abbiamo preferito “far parlare i dati”: consci della mole informativa costituita dai migliaia di questionari raccolti nelle diverse sedi, abbiamo ritenuto interessante andare ad analizzare i dati raccolti, per verificare se l’emergere o meno di alcuni pattern possa essere una conferma ai limiti ora descritti. Nei questionari utilizzati per raccogliere le opinioni degli studenti sono tipicamente infatti raccolte numerose informazioni oltre ai giudizi sull’efficacia dell’insegnamento. Nell’analisi da noi svolta abbiamo voluto verificare se l’emergere di alcune variabili “chiave” possa far pensare ad una potenziale influenza di fattori “esterni” sul giudizio di efficacia o di soddisfazione complessiva, prendendo in esame nel paragrafo 3 dati relativi all’Ateneo di Pavia e nel paragrafo 4 quelli di Padova.
2. La metodologia utilizzata
Utilizzare le reti Bayesiane per l’analisi dei dati relativi ai questionari sulla valutazione della didattica permette di esplorare quali sono le relazioni principali che legano i fattori rilevati nel questionario nel loro complesso, senza definire a priori una variabile di particolare interesse. Una volta individuato il pattern di riferimento per i dati analizzati, si è in grado di identificare quali sono le varabili più rilevanti nel sistema: l’informazione apportata condizionando relativamente ad uno stato assunto da quest’ultime, permette di spiegare come le altre variabili si comportano indipendentemente da informazioni rilevate meno significative. Di seguito verrà presentata una breve panoramica sulla teoria riguardante lo strumento di analisi scelto per questo lavoro.
Una rete Bayesiana specifica una distribuzione di probabilità multivariata su un insieme di variabili aleatorie (modello probabilistico) attraverso due componenti (Jensen, 2001;Neapolitan, 2004):
-Un grafo diretto aciclico (DAG), detto struttura, in cui i nodi rappresentano le variabili aleatorie del dominio e gli archi, determinati da frecce dirette fra nodi, rappresentano le dipendenze condizionate fra le variabili che connettono;
-Un insieme di distribuzioni locali di probabilità, ciascuna associata ad una variabile aleatoria e condizionata dalle variabili corrispondenti ai nodi sorgenti degli archi entranti nel nodo che rappresenta la variabile, detti parenti.
Nel lavoro si considerano solo variabili discrete e le distribuzioni locali assumono quindi la forma di tabelle di probabilità condizionata (CPT). La mancanza di un arco fra due nodi riflette la loro indipendenza condizionata. L’ipotesi base per una rete Bayesiana afferma che ogni variabile è condizionatamente indipendente dai suoi non discendenti, dove un discendente di un nodo è definito o come un figlio del nodo oppure un discendente di uno dei suoi figli, dato i suoi parenti. Questa condizione, detta proprietà locale di Markov, porta alla specificazione di un’unica distribuzione di probabilità congiunta fattorizzabile in accordo con il grafo, permettendo una rappresentazione più compatta ed efficiente (Pearl, 1988). La rete infatti rappresenta affermazioni di indipendenza condizionata, permettendo così di rappresentare la distribuzione congiunta di molte variabili in strutture locali. Nel caso generale, date le variabili X1,X2,…,Xn
dove Pa(Xi) indica l’insieme dei parenti di Xi. Ciò semplifica sia l’analisi che i calcoli nel sistema. Le relazioni di indipendenza evidenziate dalla proprietà di Markov implicano molte altre relazioni di indipendenza tra le variabili nella rete. La completa relazione tra indipendenza probabilistica e struttura grafica della rete è data dal concetto di d-separazione (Pearl, 1988; Verma and Pearl, 1988).
I vantaggi dell’uso delle reti Bayesiane come strumento di analisi per sistemi complessi sono molteplici. Le reti Bayesiane permettono di apprendere le relazioni che sussistono fra le variabili in modo da rappresentare la modularità tipica dei sistemi complessi, ottenendo una rappresentazione grafica e strutturata intuitiva delle relazioni. Inoltre permettono di analizzare insiemi di dati, anche incompleti, poiché evidenziano la natura delle dipendenze e suggeriscono un modo naturale per codificarle. Sono flessibili nelle applicazioni, in quanto possono essere usate per risolvere problemi di classificazione, così come problemi di configurazione, previsione o di esplorazione di Data Mining.
Uno degli obiettivi principali delle reti Bayesiane è il calcolo della probabilità di un evento, inteso come insieme di assegnazioni di stato ad una o ad un insieme di variabili, che coinvolgono le variabili del dominio, condizionatamente ad ogni altro evento. Questo processo è chiamato inferenza probabilistica. In generale, quando nella rete vengono evidenziate molte dipendenze fra le variabili, l’inferenza probabilistica è NP-hard, poichè è necessario marginalizzare su un numero esponenziale di assegnazioni delle variabili (Cooper, 1990; Dagum and Horvitz, 1993). In letteratura sono stati proposti algoritmi per il calcolo dell’inferenza che includono sia metodi esatti che approssimati (Lauritzen and Spiegelhalter, 1988; Jensen et al., 1990; Jensen, 2001).
Nel contesto delle reti Bayesiane, la selezione del modello si traduce in termini di apprendimento, ovvero il processo di specificazione del grafo DAG, la struttura della rete, e della determinazione delle probabilità condizionate associate alle variabili del dominio, i parametri della rete. Questi due tipi di apprendimento sono chiaramente non indipendenti, poiché l’insieme dei parametri necessari dipende dalla struttura assunta e viceversa. In letteratura sono sviluppati algoritmi di apprendimento automatico dai dati che si basano su differenti metodologie e che possono essere distinti in due sottogruppi principali, definiti come metodi Search & Score e Constraint-based. Il primo usa una funzione score per confrontare le possibili strutture della rete e seleziona quella che si adatta meglio ai dati (Cooper and Herskovits, 1992; Heckerman et al., 1995; Heckerman, 1996), mentre il secondo utilizza misure in grado di scoprire le indipendenze condizionate tra le variabili casuali e trova la struttura che rappresenta queste relazioni (Spirtes et al., 1993; Cheng et al.,1997). Nel lavoro, si considera il primo approccio usando una procedura di ricerca di tipo hill-climbing e massimizzando la funzione score Bayesiana.
3. I primi risultati per l’Ateneo di Pavia: una conferma delle potenzialità e dei limiti dell’indagine sull’opinione degli studenti come strumento valutativo
Nelle nostre prime analisi abbiamo preso in considerazione i dati dell’indagine svolta nell’Ateneo di Pavia negli ultimi anni (ripromettendoci nel seguito dello studio di analizzare anche altri atenei). Questi si caratterizzavano per diversi fattori d’interesse: da forti differenziazioni di vissuto valutativo tra Facoltà a cambiamenti, anche importanti, nello strumento di rilevazione. L’applicazione delle stesse analisi a contesti didattici diversi e a strumenti diversi avrebbe dovuto allora consentire l’evidenziarsi o meno di patter robusti e più facilmente interpretabili.
Le analisi hanno riguardato complessivamente 2 facoltà 3 anni accademici e 30 insegnamenti, per un totale di oltre 3500 questionari analizzati.
Dati gli obiettivi prettamente esplorativi delle analisi, riportiamo qui solo i risultati principali, ovvero quanto dalle diverse elaborazioni sembra emergere come tratti comuni, o principali. Questi sono dati, nella lettura offerta dallo strumento specifico di analisi adottato, le reti bayesiane, dalla struttura di dipendenza che risulta di maggior “evidenza” (da un punto di vista statistico). In ognuna delle figure riportate, viene evidenziata la struttura della rete, ossia le dipendenze dirette (arco fra due nodi) e le indipendenze condizionate (mancanza di un arco fra due nodi) identificate attraverso il concetto di d-separazione introdotto nel paragrafo 2. Inoltre per i nodi che risultano essere più significativi, si riportano le probabilità a priori, ossia le probabilità calcolate sul database corrispondente (evidenziate in verde) e le probabilità condizionate (altri colori) rispetto a variabili chiave nella spiegazione del problema oggetto di studio.
- I risultati:
-nei corsi dove la qualità complessiva non è così differente questo è il pattern: interesse come variabile chiave e capace di influenzare anche giudizi su oggetti teoricamente indipendenti da questa (Fig.1, risultati per l’anno accademico 03/04, Facoltà di Scienze Politiche, corsi del primo anno, si condiziona rispetto alla variabile “Interesse”). Possibili spiegazioni: soggettività dei giudizi, effetto marmellata (giudizi spalmati), relativa incapacità da parte degli studenti di cogliere differenze qualitative (soprattutto se poco interessati alla materia e dunque con una limitata, soprattutto in quanto ancora frequentanti, conoscenza di questa).