Vanaf het schooljaar 2023-2024 zullen onze scholen regelmatig uniforme toetsen moeten afnemen bij alle leerlingen op scharniermomenten in de schoolloopbaan. Zo krijgen zowel de overheid als de scholen zelf een objectief beeld van het bereikte kennisniveau Nederlands en wiskunde. De toetsen zijn bedoeld om de kwaliteit van het onderwijs op schoolniveau te monitoren, ze vervangen dus geen examens. Zijn ze niettemin nuttig om het beleid over de onderwijskwaliteit aan te sturen? Persoonlijk heb ik niet aan de ontwikkeling van de toetsen meegewerkt, vanaf de zijlijn probeer ik een onderbouwd beeld te schetsen van de mogelijkheden en limieten van dit nieuwe beleidsinstrument.
In een zeer gedecentraliseerd onderwijssysteem als het onze (met vrije schoolkeuze voor ouders en vrijheid van onderwijs voor de inrichtende machten) heeft de overheid, als derde betaler, inderdaad het recht om te weten of en welke scholen voldoende kwaliteit leveren. Eindtermen zetten daarvoor alleen de bakens uit, de toetsen moeten de werkelijke prestaties meten. Waar de eindtermen onvoldoende gehaald worden, kunnen eventueel ondersteunende of meer dwingende maatregelen volgen. De toetsontwikkelaars blijven zelf erg voorzichtig met uitspraken daarover, omdat het succes van de operatie samenhangt met het draagvlak bij de scholen zelf.
Onderwijskwaliteit meten
De meeste moderne onderwijssystemen kennen een of andere vorm van centraal geijkte toetsing. De modaliteiten daarvan – hoeveel scholen eraan deelnemen, of die deelname verplicht is, welke consequenties er kunnen zijn – verschillen van land tot land. Vlaanderen neemt al vele jaren deel aan internationale peilingen zoals PIRLS, TIMSS en PISA om zijn relatieve prestaties te vergelijken met die van andere landen. Daar gaat het echter om steekproeven in een beperkt aantal scholen. Daarnaast zijn er in Vlaanderen op het einde van het lager onderwijs per onderwijsnet proeven waaruit alle scholen verplicht moeten kiezen: de zogenaamde interdiocesane proeven van het katholiek onderwijs, de OVSG-toetsen, of de paralleltoetsen.
Die toetsen hebben geen rechtstreekse gevolgen voor leerlingen, omdat scholen het recht blijven hebben om hun eigen examens te gebruiken. In sommige landen, zoals Nederland, hebben centrale toetsen wél de functie van examens, ze bepalen mee de oriëntering van de leerlingen in het secundair onderwijs. De nieuwe Vlaamse Toetsen zullen wel verplicht zijn voor (bijna) alle leerlingen en scholen, maar ze blijven zonder rechtstreekse impact op de loopbanen van leerlingen. Het doel is immers niet om individuele leerprestaties, maar veeleer de kwaliteit van het onderwijs op schoolniveau te monitoren. Tegenover de bestaande praktijk in Vlaanderen is het nieuwe in de Vlaamse Toetsen vooral de universele toepassing van uniforme toetsen, en dat op vier scharniermomenten (4e en 6e leerjaar lager, en 2e en 6e leerjaar secundair onderwijs).
De internationale literatuur is erg verdeeld over het nut, of gebrek daaraan, van centrale toetsen. Volgens sommige onderzoekers[1] zijn ze ronduit schadelijk, terwijl anderen[2] net betogen dat er te weinig getoetst wordt. De waarheid ligt ergens in het midden, de pro’s en contra’s hangen nu eenmaal sterk af van de context en de modaliteiten.
Vooral in gedecentraliseerde, en zelfs deels geprivatiseerde, onderwijssystemen zijn toetsen een instrument om onderwijsverstrekkers meer aansprakelijk (accountable) te maken voor hun output. Vergeet niet dat scholen en onderwijsnetten in ons land heel vrij zijn in het bepalen van hun pedagogisch project, didactische methoden, evaluatie … tot en met het toekennen van diploma’s. De overheid kan slechts beperkte voorwaarden opleggen. Inmiddels groeit het vermoeden dat scholen erg ongelijke standaarden hanteren bij de evaluatie van hun leerlingen. En toch heeft de inspectie nog nooit de sluiting van een school aanbevolen na een negatief rapport over de onderwijskwaliteit.
Fluisteren
Na een paar decennia van dalende prestaties van onze leerlingen in internationale toetsen lijkt het niet meer dan logisch dat de overheid via eigen vergelijkende toetsen strenger wil toezien op de onderwijskwaliteit. Overigens kunnen ook schoolbesturen zelf de toetsen aangrijpen om hun eigen prestaties en die van hun leerkrachten en leerlingen volgens objectieve criteria te meten.
Paradoxaal genoeg vinden de meeste betrokkenen in Vlaanderen dat de resultaten van de toetsen per school niet gepubliceerd mogen worden. Dat zou leiden tot verscherpte concurrentie tussen scholen op basis van hun rankings in de zogenaamde league tables. In landen waar dat gebeurt, het Verenigd Koninkrijk voorop, versterkt dat de polarisatie tussen sterkere en zwakkere scholen. De prestaties van scholen zijn immers niet alleen afhankelijk van de kwaliteit van hun onderwijs, maar evenzeer van de sociale herkomst van hun leerlingenpopulatie.[3] Leerlingen uit hogere sociale milieus hebben door hun materieel, sociaal en cultureel kapitaal een voorsprong. Sociale elitescholen zullen dus bijna automatisch bovenaan de rankings verschijnen, terwijl scholen met een kansarmer doelpubliek veel minder mooie toetsresultaten kunnen voorleggen. Bovendien weten vooral begoede en hooggeschoolde ouders die informatie het eerst te achterhalen. Zij zijn ook mobieler, halen hun kinderen weg uit zwakker presterende scholen om ze naar de ‘goede’ elitescholen te brengen. Die zogenaamde witte vlucht wakkert de schoolse segregatie en ongelijkheid verder aan.
Maar hoewel een publicatieverbod van de schoolresultaten dus goed bedoeld is, bestaan er ook verplichtingen omtrent de openbaarheid van bestuur en persvrijheid. Alerte ouders zullen inzage eisen in de cijfers, en scholen met goede resultaten zullen die graag doorfluisteren.
Ook de gehanteerde kwaliteitsmaatstaven zijn voer voor discussie. De ontwerpers van de Vlaamse toetsen hebben de ambitie om niet zomaar prestatieniveaus te meten, maar eerder leerwinst. Inderdaad, als je leerlingen op verschillende momenten in hun schoolloopbaan test met gekalibreerde toetsen, kun je daaruit afleiden hoeveel vooruitgang die leerling heeft gemaakt, gezuiverd van de prestaties bij aanvang die sterk bepaald zijn door sociale herkomst. De gemiddelde leerwinst op schoolniveau is uiteraard een betere maatstaf van onderwijskwaliteit dan de ruwe toetsresultaten. Maar daarmee hebben de toetsontwikkelaars de lat voor zichzelf wel erg hoog gelegd. Wat doe je immers met neveninstromers en -uitstromers, die slechts een deel van hun loopbaan in de betrokken school hebben doorgebracht? Statistisch wordt dat algauw spitstechnologie.
Bovendien stellen zich conceptuele problemen. Niet alleen de school beïnvloedt leerwinst, ook het studieaanbod zelf, en dus de overheid. Wat doe je met curriculumverschillen tussen onderwijsvormen en studierichtingen? Wat betekent kwaliteit als de ene leerling zes uur wiskunde per week heeft gevolgd en de andere twee? Zijn dat dan wettelijk vastgelegde kwaliteitsverschillen? Waarom dergelijke institutionele discriminaties dan niet meteen afschaffen? Zelfs de sociale herkomst van leerlingen bepaalt ongetwijfeld mee hun leerwinst. Is het dan geen naïeve ambitie de toegevoegde waarde van scholen en leerkrachten op een zuivere manier te willen meten, los van andere invloeden?
Neveneffecten
Idealiter wordt de kennis van leerlingen regelmatig getoetst om leervorderingen in kaart te brengen en waar nodig het aanbod op maat bij te sturen. In dat geval spreken we van formatieve toetsing. Het Vlaams onderwijs gebruikt toetsen echter veel meer vanuit een selectie-perspectief. Vanaf het eerste leerjaar hebben toetsen negatieve gevolgen voor zwakkere presteerders, zoals zittenblijven of een doorverwijzing naar het buitengewoon onderwijs. In het secundair onderwijs beperken ze de keuzes in de studieoriëntering. Leerlingen ervaren die voortdurende toetsen als een soort Squid Game: een dwangmatige individuele concurrentieslag met enkel slachtoffers, die het leerplezier wegneemt, haaks staat op samen leren en schadelijk is voor hun sociale ontwikkeling. De uitgesproken meritocratische cultuur in ons onderwijs maakt van de schoolloopbaan een afvallingskoers. Demotivatie, mentaal onwelzijn, wrok en vroegtijdig schoolverlaten zijn daarvan de gevolgen.[4] De vraag rijst of een bijkomende lading toetsen die ongewenste didactische en psychologische neveneffecten niet versterkt.
Leerkrachten en scholen die beoordeeld worden op de prestaties van hun leerlingen staan onder druk en zullen geneigd zijn hun reputatie op te krikken. Ten koste van andere leerstof en pedagogische doelstellingen zullen ze dan focussen op de voorbereiding van de toetsen[5]. Teaching to the test, zoals dat heet. Nederlands en wiskunde zijn weliswaar basisvaardigheden, maar wat met sociale, fysieke, morele, of culturele vaardigheden? Verschillende onderzoekers vrezen een verenging van het onderwijs tot meetbare cognitieve processen in enkele kernvakken.
Nog erger is de verleiding voor scholen om hun blazoen op te poetsen door al bij de inschrijvingen leerlingen te selecteren op basis van herkomst of vorige prestaties.[6] Scholen zijn immers niet alleen verantwoordelijk voor kwaliteitsvol onderwijs, maar ook voor het garanderen van het recht op onderwijs aan elke jongere.
Weinig resultaat voor ‘goede’ onderwijssystemen
Voor we het internationaal onderzoek naar de effecten van centrale toetsen grondiger bekijken, is wat uitleg over de gehanteerde criteria en methodologie aangewezen. Aangezien landen niet alleen verschillen in de toepassing van centrale toetsen, gebruiken onderzoekers multivariate modellen die rekening houden met relevante verschillen in onderwijssystemen (macroniveau), scholen (mesoniveau) en leerlingen (microniveau). In het beste geval beschikt men over uniforme gegevens uit verschillende jaren. Wanneer landen hun centrale toetsen hebben ingevoerd tussen twee peilingen, dan kunnen we de onderwijsuitkomsten vóór en na de hervorming vergelijken. Dat soort analyses biedt meer statistische zekerheid over het causale verband tussen de invoering van centrale toetsen en de verschuivingen in uitkomsten. Maar lang niet alle studies hanteren dergelijke geavanceerde multivariate en intertemporele modellen.
Traditioneel maakt de evaluatie van het onderwijsbeleid een onderscheid tussen twee essentiële parameters: de gemiddelde vaardigheden op landniveau enerzijds, zoals de gemiddelde prestaties van 15-jarigen op de PISA-wiskundetoetsen, en de sociale ongelijkheid in uitkomsten anderzijds, gemeten als de invloed van de sociaaleconomische of migratieachtergrond van jongeren op die toetsresultaten. Meteen valt op dat het onderzoek zich tot nog toe bijna uitsluitend richtte op cognitieve vaardigheden, wat uiteraard een beperkt beeld schetst van de effecten.
De verwachting is dat centrale examens de gemiddelde onderwijsuitkomsten verhogen, om te beginnen in termen van cognitieve vaardigheden op korte termijn. Duitse onderzoekers brachten de effecten op de cognitieve vaardigheden en de arbeidsmarktpositie van volwassenen in kaart, aan de hand van de PIAAC gegevens (een OESO-survey) voor dertig landen, gekoppeld met informatie over attestering aan het einde van het secundair onderwijs sinds de jaren zestig.[7] Volwassenen die hun secundair onderwijs afrondden met centrale examens blijken iets beter te scoren qua vaardigheden, maar niet qua tewerkstellingskansen of inkomen, en het effect lijkt uit te doven op latere leeftijd. Een recentere en meer omvattende studie over 59 landen en meer dan 2 miljoen leerlingen uit 6 PISA-golven (weliswaar beperkt tot 15-jarigen) ziet dat de invoering van nationale toetsen met bindend gevolg (nationale examens) meer positieve effecten hebben dan de invoering van niet-bindende centrale toetsen. Maar de effecten zijn kleiner in landen met goede onderwijssystemen.[8] Niet-bindende centrale toetsen hebben helemaal geen effect op de prestaties (en dus ook niet op de leerwinst) in een ‘goed’ onderwijssysteem zoals het Vlaamse. Slecht nieuws dus voor de Vlaamse toetsen: ze zullen de dalende trend in de vaardigheden van onze leerlingen niet ombuigen.
Sociale ongelijkheid
De invloed van centrale toetsen op de sociale ongelijkheid in onderwijsuitkomsten is minder goed onderzocht. Onderzoekers van de Universiteit van Maastricht stelden vast dat centrale toetsen de nefaste effecten temperen van ‘vroege tracking’, de ongelijkheidsversterkende oriëntatie van leerlingen richting algemene of beroepsgerichte onderwijsvormen op vroege leeftijd.[9] Twee verklaringen geven de auteurs daarvoor. Ten eerste geven centrale toetsen een objectievere basis voor studieoriëntering, waar die anders bij 12-jarigen nog sterk bepaald wordt door hun sociale herkomst. Ten tweede leggen centrale toetsen de lat gelijker tussen onderwijsvormen, waardoor scholen voor beroepsonderwijs, met een hogere concentratie kinderen uit meer kwetsbare sociale milieus, meer druk ondervinden om het vereiste vaardigheidsniveau te bereiken. Maar is de logische conclusie uit dit onderzoek dan niet eerder dat de leeftijd van tracking verhoogd moet worden, eerder dan dat men de nefaste effecten ervan moet temperen met secundaire maatregelen, zoals centrale toetsen?
Samen met masterproefstudente Nadine Takieddine onderzochten we zelf de invloed van centrale toetsen op de prestaties van scholen aan de hand van een twee-niveaumodel (landen en scholen) en met de PISA-gegevens van 2018.[10] In totaal betrokken we 41 onderwijssystemen in de analyse, met een onderscheid tussen het Vlaamse en Franstalige onderwijs in België. We focusten op de ongelijkheid tussen scholen binnen landen, omdat de (Vlaamse) toetsen vooral tot doel hebben om meer gelijke uitkomsten op schoolniveau te bevorderen. We namen expliciet de gemiddelde SES-scores, voor sociaaleconomische status, de gendersamenstelling en het aandeel leerlingen met een migratieachtergrond op als verklarende variabelen.
Zowel de school-SES als het aandeel leerlingen met een migratieachtergrond oefenen een sterke invloed uit op de gemiddelde prestaties per school. Dat komt overeen met het vorige PISA-onderzoek, en bevestigt nogmaals dat een eerlijke vergelijking van de toetsresultaten per school slechts mogelijk is na uitzuivering van de verschillen in sociale mix tussen scholen. Centrale examens vertonen in onze schattingen geen significant verband, noch met de gemiddelde schoolprestaties, noch met de sociale ongelijkheid tussen scholen. Met andere woorden, we verwachten van centrale examens geen heil, noch voor de gemiddelde schoolprestaties, noch voor de ongelijkheid tussen scholen. Centrale toetsen vertonen in ons model wel een significant negatief verband met de gemiddelde prestaties op schoolniveau. Landen met centrale toetsen presteren met andere woorden minder goed dan landen zonder centrale toetsen. Bovendien vinden we ook hier geen significant effect op de sociale ongelijkheden tussen scholen.
Hoe bomen groeien
We willen voorzichtig blijven. Dit is nog geen eindoordeel over de mogelijke impact van de Vlaamse toetsen. Ons eigen onderzoek is cross-sectioneel, wat geen sterke uitspraken toelaat over causale verbanden. Het is denkbaar dat centrale toetsen meestal ingevoerd worden in zwakker presterende onderwijssystemen, met als doel de kwaliteit op te krikken. Dan zijn ze niet zozeer de oorzaak, maar het gevolg van lagere gemiddelde onderwijsuitkomsten. Dat komt overeen met de vaststelling dat centrale toetsen betere resultaten opleveren in zwakker presterende landen. Een zuiver oorzakelijk verband kan beter aangetoond worden met intertemporeel onderzoek, maar zelfs indien er in ons model sprake is van tweerichtingscausaliteit blijft de indruk overeind dat dure Vlaamse toetsen weinig toegevoegde waarde zullen opleveren. Niets wijst erop dat de tanende prestaties van Vlaamse leerlingen vanaf 2024 zullen opveren. Om het met een citaat van collega Johan Van Braak in het tijdschrift Klasse samen te vatten: ‘Bomen groeien niet sneller door er een meetlint naast te spannen.’ We kunnen alleen hopen dat de zwak presterende scholen effectieve ondersteuning zullen krijgen en niet extra zullen gestigmatiseerd worden door het ‘lekken’ van hun toetsresultaten.
Ides Nicaise
(hoogleraar em Onderwijs en Samenleving en onderzoeksleider bij het HIVA-Onderzoeksinstituut voor Arbeid en Samenleving (KU Leuven)
Dit artikel verscheen eerder in De gids op maatschappelijk gebied, 2023, 2 (2 maart 2023)
- Andrews, P. e.a. (6 mei 2014), OECD and Pisa Tests Are Damaging Education Worldwide. The Guardian; Hout, M., Elliott, S.W. (eds. 2011). Incentives and Test-based Accountability in Education. Washington, DC: National Academies Press. ↑
- World Bank (2018), World Development Report 2018: Learning to realize education’s promise. Washington, DC: World Bank. ↑
- van de Werfhorst, H. G., Mijs, J. J. B. (2010), Achievement Inequality and the Institutional Structure of Educational Systems: A Comparative Perspective. Annual Review of Sociology, 36(1), p. 407-428; Franck, E., Nicaise, I. (2019) De invloed van school- en systeemkenmerken op (on)gelijke onderwijsuitkomsten naar sociale herkomst en thuistaal: vergelijkende analyse op PISA 2015. Leuven: HIVA/Hamburg: IEA/Gent: Steunpunt Onderwijsonderzoek. ↑
- Jürges, H., Schneider, K. (2010). Central Exit Examinations Increase Performance … But Take the Fun Out of Mathematics. Journal of Population Economics, 23(2), p. 497-517. ↑
- Foley, B., & Goldstein, H. (2012). Measuring Success. League tables in the public sector. British Academy Policy Centre. ↑
- Dumay, X., Dupriez, V. (2014). Educational Quasi-markets, School Effectiveness and Social Inequalities. Journal of Education Policy, 29(4), p. 510-531. ↑
- Leschnig, L., Schwerdt, G., Zigova, K. (2021). Central Exams and Adult Skills: Evidence from PIAAC. CESifo Working paper 8899. ↑
- Bergbauer, A., Hanushek, E., Woessmann, L. (2021): Testing. Journal of Human Resources, October 2021. ↑
- Bol, T., Witschge, J., Van de Werfhorst, H. G., Dronkers, J. (2014). Curricular Tracking and Central Examinations: Counterbalancing the Impact of Social Background on Student Achievement in 36 Countries. Social Forces, 92(4), p. 1545-1572. ↑
- Takieddine N. (2022), Central Exams, National Assessments, Quality and Equity in Education. Masterthesis voor de graad van Master of Science in Educational Studies (supervisie I. Nicaise and E. Franck), KU Leuven. ↑