Použití AI k posouzení psaní by mohlo „revoluci“ hodnocení

Pomocí AI k posouzení psaní studentů „má potenciál revolucionizovat hodnocení a decimaci pracovního vytížení“, podle zjištění soudního řízení.
Žádné další značení, organizace, která je průkopníkem srovnávacího úsudku jako alternativu k označení písemné práce, nedávno provedla projekt hodnocení AI s názvem CJ Lightning. Srovnávací úsudek zahrnuje rozhodování, které je lepší ze dvou kusů psaní.
V a Blogový příspěvekŘeditelka vzdělávání Daisy Christodoulou a zakladatelka Chris Wheadon uvedla, že výsledky ukázaly, že AI „je velmi dobrá v soudě psaní studentů a je životaschopnou a časově úspornou alternativou pro mnoho forem školního hodnocení“.
Přichází to jako vláda tlačení používání AI a další technologie ke snížení pracovního zatížení učitelů.
Další studie v loňském roce Navrhovaní učitelé, kteří používají chatgpt spolu s průvodcem o jeho efektivním používání, mohou zkrátit dobu plánování lekce o 31 procent.
Projekt CJ Lightning hodnotil psaní 5 251 let 7 studentů ze 44 středních škol.
Žáci napsali literaturu faktu na krátkou textovou výzvu k zlepšení životního prostředí.
Učitelé nahráli své psaní na webové stránky více více značek a poté k jeho posouzení použili srovnávací úsudek.
Proces „obvykle přináší velmi vysokou úroveň spolehlivosti mezi hodnotami a je zlatým standardem lidského úsudku“.
AI souhlasila s 81% lidských rozhodnutí
V tomto projektu už žádné značení nepožádalo AI, aby se také rozhodla. To jim umožnilo porovnat úsudky lidí a AI, aby zjistili, zda se dohodli.
Z 3 640 rozhodnutí lidí se AI dohodla s 81 % z nich.
Během nejnovějšího předchozího hodnocení NMM s lidským posouzením 7 lidských soudců se vzájemně dohodli 87 % času, což je „docela typické“.
Řekli však, že celková úroveň neshody nebyla „nepřesvědčivá“ a „typ chyb.
„Celková dohoda může být dobrá, ale pokud je 20 % neshody plné absolutních vytí, je to stále obrovský problém.“
„Uklidňující“ v této zkoušce tyto neshody „vrchol, kde je rozdíl zmenšeného skóre malý“.
Neshody někdy až po lidskou chybu
NMM podrobně prozkoumala vzorek největších neshod a mluvil s učiteli, kteří učinili některá rozhodnutí.
„Nejedná se o případy, kdy se AI mýlí a člověk má pravdu. Ve skutečnosti některé z největších neshod zahrnovaly učitelé, kteří byli zaujati rukopisem, a přijímají při přezkumu, že AI pravděpodobně měla pravdu a mýlili se.

Další příklady „Zapojily se učitelé, kteří dělají manuální chybu a kliknutím na nesprávné tlačítko“.
Rovněž porovnali testy 2 297 žáků, kteří se v září loňského roku a v tomto projektu zúčastnili podobného hodnocení.
Korelace skóre mezi oběma sezeními byla 0,65. NMM řekl, že v květnu a září loňského roku viděli korelaci 0,58 mezi lidskými testy.
„Vysoká korelace nás ujišťuje, že AI neposuzuje nějakou podivnou dimenzi schopností psaní, ale ve skutečnosti nám poskytuje podobnou dimenzi jako ten, který si ceníme,“ napsal Christodoulou a Wheadon.
Nejen „žádat AI o značku“
Dodali, že jejich přístup k hodnocení AI byl „velmi odlišný od přístupu„ Požádejte AI o známku “a nabízí mnohem více ujištění, že získáváte správnou známku“.
Je to proto, že AI, stejně jako lidé, je lepší ve srovnávacích úsudcích než absolutních. Také přiměli AI, aby učinili každé rozhodnutí dvakrát, aby „eliminovali jeho tendenci umístit zkreslení“.
Christodoulou a Wheadon si také „myslí, že byste mohli provést 100 % hodnocení AI bez lidského posuzování.
„Nedoporučujeme však, abyste to rutinně udělali. Vždy byste chtěli spustit některé hybridy člověka-a) a) pokračovali v ověřování modelu AI a b) se ujistěte, že učitelé se zabývají psaním studentů.“
V tomto hodnocení doporučují rozdělení 10 % lidského úsudku a 90 % AI.
Učitelé by mohli ušetřit čas
V jedné škole s 269 rokem 7 let strávil hlava oddělení hodinu a 12 minut na hodnocení.
To bylo „dost k ověření všech ostatních rozhodnutí AI a poskytování robustních a smysluplných skóre pro každého studenta“.
„Na jiných školách sdíleli rozhodnutí mezi mnoha učiteli, což mělo za následek 5-10 minut souzení na učitele.“
Christodoulou a Wheadon dospěli k závěru, že „si stále myslí (AI technologie) mají nedostatky a jsou náchylné k halucinacím“.
„Myslíme si však, že proces, který jsme zde vyvinuli, má potenciál revoluci v hodnocení a decimaci pracovního vytížení (docela doslova decimate, pokud se budete řídit náš doporučený 10 % přístup k lidskému souzení).“
NMM bude v letním období provozovat bezplatné projekty pro jakoukoli primární nebo střední školu, která chce tento přístup soudit.
Poté budou mít „komplexnější plán k dispozici v akademickém roce 2025-26“.