9. Om betygens historia och Vinnovas betygsystem: Framgång = något större skicklighet + mycket tur

[tl:dr På Vinnova frågar vi ibland efter saker som vi inte bedömer och vi bedömer inte sällan saker som vi inte frågar efter. Kan vi lita på att betygen speglar kvaliteten i ansökningarna i tillräckligt hög grad? Det finns två fallgropar: Den ena är att frågorna i ansökningsblanketten inte tillräckligt förmår fånga skillnaden mellan ansökningarna kring det vi vill mäta. Den andra är att frågorna mäter något som de inte borde mäta.]

Betygssystem är en svensk specialgren. Fyra olika betygsskalor och tre olika betygssystem har passerat den svenska skolans värld under 1900-talets andra hälft: Det absoluta, det relativa och dagens mål- och kunskapsrelaterade betygssystem.

Och nu har Regeringen presenterat ytterligare ett förslag i den nya utredningen ”Bygga, bedöma, betygssätta – betyg som bättre motsvarar elevers kunskaper. SOU 2020:43 : Betänkande från Betygsutredningen 2018 U 2018:03” (781 sidor). Där föreslås en ny sjugradig betygsskala, med ytterligare ett underkänt betyg (Fx Underkänd, något mer arbete krävs, F Underkänd, mycket mer arbete krävs), att ämnesbetyg ska återinföras i gymnasiet, och att den nya principen ”kompensatorisk betygssättning” ska införas, dvs om en elev uppfyller några av kriterierna särskilt väl kompenserar detta mindre väl uppfyllda delar.

Vinnovas kärnverksamhet är att formulera rättvisa, sakliga och likvärdiga avslagsmotiv. Allt annat är typ underordnat. För att undvika godtycke i besluten kräver det en bedömningsprocess med stabila, transparenta och rättvisa betyg. Vi är som besatta av detta.

Vinnova betyg är utformade som en sexgradig skala 0 till 5. Men ibland har skalan fem steg, 1 till 5, beroende på utlysning:

Innovativa Startups (sexgradig skala)

0 Går ej att bedöma – Ingen eller ofullständig information.

1 Bristfällig – Svarar inte på frågan.

2 Godtagbar – Svarar på frågan, men det finns stora invändningar kring svaret.

3 Bra – Tillfredställande svar, men resonemanget är otydligt.

4 Mycket bra – Bra svar, men med vissa anmärkningar eller oklarheter.

5 Utmärkt – Övertygande och tydliga svar.

UDI (sexgradig skala)

0 Ej bedömningsbart

1 Otillräckligt – kriteriet uppfylls inte adekvat, eller allvarliga inneboende brister föreligger

2 Godtagbar – uppfyller i princip kriteriet, men det finns betydande brister

3 Bra – uppfyller kriteriet väl, men förbättringar krävs

4 Mycket bra – uppfyller kriteriet mycket väl, men vissa förbättringar är fortfarande möjliga

5 Utmärkt – uppfyller alla relevanta aspekter av kriteriet. Eventuella brister är försumbara

IPF (femgradig skala)

1 Otillräckligt – kriteriet uppfylls inte adekvat, eller allvarliga inneboende brister föreligger

2 Godtagbar – uppfyller i princip kriteriet, men det finns betydande brister

3 Bra –uppfyller kriteriet väl, men förbättringar krävs

4 Mycket bra – uppfyller kriteriet mycket väl, men vissa förbättringar är fortfarande möjliga

5 Utmärkt – uppfyller alla relevanta aspekter av kriteriet. Eventuella brister är försumbara

I vår iver över att vara rättvisa, sakliga och likvärdiga blir betygen och formuleringarna lätt överarbetade. Ovanstående exempel visar på att det, baserat på floran av betygsskalor på Vinnova, med lätthet skulle kunna konstrueras en komplicerad tiogradig skala med sju betygssteg, genom en sinnrik kombination av siffror eller bokstäver, och plus- och minustecken (till exempel AB- eller Ba+), som ger både betyg och omdömen, samt förvirrar de externa bedömarna. *se fotnot)

Förr i tiden…

Betyg har rötter långt bak i tiden. Från början var betyg inte enbart ett sätt att mäta kunskap, färdighet, förmåga och förtrogenhet med ett ämne. Betyg användes även för att sätta klassgränser mellan olika skolformer, som folkskola och läroverk. Gränserna utformades så att de gynnade en elit.

Betyg har därför ofta varit ett politiskt slagträ i kampen mellan eliten och folket; mellan att låta ett fåtal utbilda sig, eller att ha ett inkluderande skolsystem.

Betygens funktion blir tydlig när man jämför sättet att se på betyg mellan olika länder. Bara det tillsynes enkla ordet ”betyg” betyder olika saker i olika länder:

England: ”marks” – utmärkelse, hederstecken

Frankrike: ”classe” – placera i rang; att dela in i olika klasser

Island: ”einkunnir” – kännetecken

Tyskland: ”Zeugnis” – vittnesbörd, intyg

USA: ”grades” – grader (på en skala)

Det svenska ordet ”betyg” härstammar från ordet intyg, bekräftelse. I Sverige har vi haft betyg i skolan sedan 1600-talet, då som skriftliga omdömen om personlighet och egenskaper.

Första gången ordet återfinns i skrift är i Laurentius Petris Then Swenska Kyrkoordningen tryckt 1571: ”[Sakramenten] äro Signacula et testimonia gratiæ .. thet är betygh och insegell til Gudz nådh.”

Ordet betyg i betydelsen ”utlåtande över en prestation” började användas i slutet på 1700-talet. Innan dess användes ordet ”vittnesbörd”, som i svenska Skolordningsförslaget från 1778: ”the vitnesbörder, som vid afskiedet ifrån Gymnasierne och Scholarne Disciplarne meddelas af rector.”

1820 ersättes det skriftliga utlåtandet i folkskolan med en fyrgradig betygsskala A till D. Betyget skulle mäta elevens kunskaper och flit:

A – Berömlig insikt

B – Godkänd insikt

C – Försvarlig insikt

D – Otillräcklig insikt

I läroverken fick eleverna även betyg i uppförande:

A – Stadgade seder och berömligt uppförande

B – Jämnt och stadgat uppförande

C – Oklanderligt uppförande

D – Lättsinnigt och ostadigt uppförande

Det absoluta betygssystemet

Det absoluta betygssystemet, med den medeltida uppfattningen om lärande – att det finns en absolut och säker kunskap som ska överföras från lärare till elev – infördes 1897 och bestod av en sjugradig bokstavsskala A-C, där A var högsta betyget och C var underkänd:

A – Berömlig

a – Med utmärkt beröm godkänd

AB – Med beröm godkänd

B – Godkänd

Ba – Icke utan/med nöje beröm godkänd

Bc – Icke fullt godkänd

C – Underkänd

Inom detta betygssystem fick eleverna i folkskolan även betyg i uppförande på en skala mellan A-D, där A var “mycket gott” och D var “klandervärt”. I realskolan fick eleverna betyg i både uppförande och ordning, där skalan låg mellan A-C.

Det absoluta betygssystemet innehöll få anvisningar om vad som krävdes för att få ett visst betyg, vilket ledde till att lärarna kunde bedöma ganska fritt.

På 1940-talet slog Kgl Skolöverstyrelsen fast att normalbetyget var Ba, som ansågs stå för genomsnittsfärdigheten hos alla skolbarn på just det stadiet. Riktlinjerna var att en tredjedel skulle ha Ba, en tredjedel högre, och en tredjedel under Ba.

Det relativa betygssystemet

Efter 30 års debatterade och utredningar ersattes det absoluta betygssystemet 1962 med det relativa betygssystemet, där kunskap ses som något relativt och flytande. Idén är att elevernas prestationer från ett stort antal sammanvägda uppgifter, för en stor grupp elever, fördelar sig enligt en normalfördelningskurva. Enligt förordningen skulle betygen för samtliga elever i landet som läste en viss ämneskurs fördelas enligt principen:

5 – (7%)

4 – (24%)

3 – (38%)

2 – (24%)

1 – (7%)

Betygen räknades ut som standardpoäng, med medelvärdet 3,0 och standardavvikelsen 1,0 hos betygen baserat på nationella prov.

Det relativa betygssystemet infördes även 1966 i gymnasium och fackskola, som en femgradig relativ betygsskala. Dessutom togs betygen bort från de lägre årskurserna i grundskolan och ersattes av kvartssamtal.

Det målrelaterade betygsystemet

Det relativa betygssystemet var hårt kritiserat redan vid införandet, men först 1994 valde riksdagen att ersätta det med ett målrelaterat betygsystem med fyra graderingar:

MVG – Mycket väl godkänd

VG – Väl godkänd

G – Godkänd

IG – Icke Godkänd. (Fanns endast i Gymnasiet. Om en elev i grundskolan inte nådde målen utformades ett skriftligt omdöme om elevens kunskapsutveckling i ämnet som bifogades slutbetyget.)

2011 ändrades betygsskalan till sju steg:

A motsvarar MVG

B motsvarar ett betyg mellan VG och MVG

C motsvarar VG

D motsvarar ett betyg mellan G och VG

E motsvarar G

F motsvarar IG

- ”streck” Vid så pass mycket skolk att läraren inte kan sätta betyg.

Betygsanvändningen på Vinnova

Vinnovas betygssystem är en kombination av ett absolut och ett relativt betygsystem. Vi vill att de sökande ska ha ett minimum av förståelse, kunskap, erfarenhet och kontakter.

Därefter rankar vi alla ansökningar i konkurrens med varandra. Kombinationen är inte fel i sig, men det kan skapa en viss förvirring hos bedömarna och de sökande om vi inte är transparenta och tydliga med hur betygssystemet är tänkt att fungera, inte minst att avslagsmotiven är tydligt kopplade till bedömningskriterierna.

Betyg kan användas och uppfattas på många olika sätt, vilket inte minst märks på reaktionerna på ett avslag. Betyg kan förutom att mäta kunskap även används för återkoppling, som ett medel för motivation, och som ett disciplineringsverktyg (dvs ett sätt att få sökande att fokusera på rätt saker).

Inte sällan uppger sökande som fått avslag att de upplever sig orättvist bedömda för att experterna betygsatt andra saker än det som står i bedömningskriterierna – Det är inte helt ovanligt i Vinnovassammanhang att vi i ansökningsblanketten frågar om saker vi inte bedömer och bedömer saker som inte finns med i bedömningskriterierna.

Inom Innovativa Startups diskuterar ständigt hur vi ska kunna förbättra utlysningen för att få bedömningskriterierna, frågorna i ansökningsblanketten och avslagsmotiven att bli konsekventa och stringenta.

Det är helt nödvändigt. I steg 1 går vi enbart på de externa bedömarnas betyg. Det enda verktyget vi har är betygssättningen och bedömningskriterierna. Vi har inga bedömningsmöten och ingen internbedömning.

Validitet och realiabilitet

Betyg ska vara rättvisa, sakliga och likvärdiga. De ska ge en korrekt, en relevant och en användbar bedömning av ansökningarna. Förstås. Men det är svårare än man kan tro att konstruera ett betygssystem. Det blir alltid kompromisser.

Inom testteori är giltighet (validitet) och tillförlitlighet (reliabilitet) två centrala begrepp vid konstruktion av ett betygssystem. Det finns två fallgropar: Den ena är att frågorna i ansökningsblanketten inte tillräckligt förmår fånga skillnaden mellan ansökningarna kring det vi vill mäta. Är viktiga aspekter underrepresenterade? Om vi till exempel har ett flervalsprov 1-X-2 så fångar det sökandes olika kunskaper kring fakta, men inte huruvida de kan argumentera. Exempelvis kan muntlig förmåga inte mätas i ett skriftligt prov.

Den andra fallgropen är att frågorna mäter något som de inte borde mäta. Våra frågor kan vara formulerade på ett så pass svårt språk (för mycket krånglig Vinnova-lingo) att vi inte vet om skillnaden mellan sökande beror på om de inte förstår frågan, eller om de faktiskt svarar på det vi vill veta.

Sen kan olika bedömare göra olika tolkningar av svaren och uppfatta betygsskalan på olika sätt. Hur bedömer man ex vis skillnaden mellan vad som är ”godtagbar” eller ”bra”?

Bedömningen ska också endast utgå från det ansökan har visat, inte från slutsatser om vad sökande möjligen kan ha menat eller baserat på sökandes tidigare meriter.

Vi viktar betygen så att mindre bra prestationer i ett kriterium kan uppvägas av mycket bra prestationer i ett annat.

Det handlar också om att minska slumpmässiga effekter som skulle kunna bero på att bedömare gör olika bedömningar av samma arbete och att bedömare inte är konsekventa.

Slumpmässiga variationer påverkas också i hög grad av hur skalor som beskriver resultaten konstrueras och hur resultat på olika delar av ett prov aggregeras.

Kan vi lita på att betygen speglar kvaliteten i ansökningarna i tillräckligt hög grad?

På det stora hela: ja. Men det finns förbättringspotential.

Tidigare utgåvor från Föreningen för Onödigt Vetande:

Fettisdagsspaning för statsanställda – Om hur svenska staten reglerade försäljningen och storleken på semlorna fram till 1970-talet. 2019-03-04
Måndagsspaning från Föreningen för Onödig Kunskap för att pigga upp efter alla sjukdomar – om hur Ronnie James Dio, som hade ersatt Ozzy i Black Sabbath, hittade på djävulstecknet 🤘. 2019-03-11
Vårdagsjämningsspaning från Föreningen för Onödig Kunskap – Om varför påsken inte alltid infaller första söndagen efter första fullmånen efter vårdagjämningen. 2019-03-20
Valborgsspaning från Föreningen för Onödig Kunskap – Om varifrån den urgamla sedvänjan och mystiska kulten att fira Valborg kommer ifrån, och kopplingen till Black Sabbaths andra studioalbum Paranoid från 1970, med låten War Pigs. 2019-04-26
Nationaldagsspaning från Föreningen för Onödig Kunskap – Om den ursvenska specialgrenen att tillsätta kommittéer för att besluta om kompromisser. 2019-06-04
Inbjudan till Halloweenfika från Föreningen för Onödig Kunskap – Om att storleken på den klassiska avlånga svenska sockerbiten är bestämd av den engelska spårvidden från mitten av 1800-talet. 2019-10-25
Föreningen för Onödig Kunskap uppmärksammar: Idag infaller den Internationella Fattigdomsdagen. 2020-01-23
Om Covid-19, barhängets förbjudande och uppkomsten av begreppet ”krogrunda” 2020-03-27

*) Byggstenarna skulle kunna vara versaler av de tre bokstäverna A, B och C. För personer med tidigare generationers skolgångserfarenheter kan de förklaras ungefär motsvara MVG, G och IG, respektive 5, 3 och 1.

Genom finurliga kombinationer av enbart dessa tre bokstäver göres så en femgradig skala inom registret ”godkänd” genom att först tillföra AB mellan A och B. Vi har nu fått de steg som korresponderar mot gamla MVG, VG och G resp 5, 4 och 3.

Vidare lägges sedan mellan AB och B till ett steg Ba (”extra godkänd”) samt a (litet a) mellan A och AB vilket bör utläsas ”nästan MVG”. För att något nyansera betygsskalan också på den icke-godkända sidan införs BC mellan B och C för att markera ett ”IG” som torde kunna repareras mellan utlysningar, medan C står för ett ”IG” som kräver helt andra tag (skriva om ansökan helt och hållet). Därmed uppnås en sjugradig betygsskala som i sin kontext (på Vinnova) bör uppfylla varje krav på nyansering och rättvisa inom respektive utlysning.

Med sju steg skulle det alltså bli en mer förfinad gradering än den nu gällande. Genom tillägg av plus eller minus efter alla stegen kunde göra betygssättningen förvillande noggrann och ge intrycket av näst intill maximalt rättvisande.

Leta i den här bloggen

Tidskriften för Onödigt Vetande