Oprogramowanie do wykrywania AI nie jest rozwiązaniem problemu oszukiwania w szkole
Dwa lata po wydaniu ogólnodostępnej wersji ChatGPT nauczyciele i instytucje wciąż zmagają się z prawidłową oceną prac wykonanych przez uczniów w erze sztucznej inteligencji (AI).

Zdjęcie: AP Photo/The Post-Tribune, Andy Lavalley
Niektóre szkoły całkowicie zakazały stosowania narzędzi AI. Inne zwróciły się ku nim tylko po to, by porzucić je kilka miesięcy później lub wymagały od nauczycieli przyjęcia sztucznej inteligencji w celu zmiany sposobu oceniania.
Rezultatem jest mieszanka rozwiązań, która ostatecznie dała wielu nauczycielom (od przedszkola do klasy 12 w USA i szkół policealnych) wolną rękę w podejmowaniu decyzji dotyczących wykorzystania AI. Przez to, decyzja podjęta przez jednego nauczyciela może nie zgadzać się z poglądami nauczyciela klasy obok, polityką instytucjonalną lub aktualnymi badaniami na temat tego, co sztuczna inteligencja może, a czego nie może zrobić.
Jednym z rozwiązań było pozwolenie na użycie oprogramowania do wykrywania AI, które opiera się na algorytmach próbujących zidentyfikować, w jaki sposób został wygenerowany określony tekst.
Narzędzia do wykrywania sztucznej inteligencji są lepsze niż ludzie w sprawdzaniu pracy generowanej przez AI. Są one jednak niedoskonałym rozwiązaniem i nie robią nic, aby rozwikłać podstawowy problem związany z projektowaniem sposobu oceniania i tym samym nie mogą odpowiedzieć na pytanie: czy jesteśmy pewni tego, co uczniowie wiedzą i potrafią?
Nauczyciele używający detektorów AI
Niedawno opublikowane amerykańskie badanie oparte na ankietach nauczycieli szkół publicznych K-12, opublikowane przez Center for Democracy and Technology, wykazało, że 68% nauczycieli korzysta z detektorów sztucznej inteligencji.
Praktyka ta znalazła również zastosowanie w niektórych kanadyjskich szkołach podstawowych i średnich oraz na uniwersytetach.
Detektory sztucznej inteligencji różnią się metodami. Dwa popularne podejścia polegają na sprawdzaniu cech określanych jako „wybuchowość” („burstiness”), odnoszących się do naprzemiennie, krótkich i długich zdań (sposób, w jaki ludzie zwykle piszą) oraz złożoności. Jeśli zadanie nie ma charakterystycznych cech tekstu stworzonego przez człowieka, oprogramowanie może oznaczyć je jako wygenerowane przez AI, co skłoni nauczyciela do rozpoczęcia dochodzenia w sprawie wykroczenia akademickiego.
Trzeba przyznać, że oprogramowanie do wykrywania AI jest bardziej niezawodne niż sprawdzenie przez człowieka. Wielokrotne badania w różnych kontekstach pokazują, że ludzie — w tym nauczyciele i inni eksperci — nie są w stanie odróżnić tekstu wygenerowanego przez sztuczną inteligencję, pomimo przekonania nauczycieli, że potrafią rozpoznać fałszerstwo.
Dokładność wykrywaczy AI jest różna
Podczas gdy niektóre narzędzia do wykrywania AI są niewiarygodne lub stronnicze wobec osób uczących się języka angielskiego, inne wydają się być bardziej skuteczne. Wątpliwości budzi jednak to, co takie wskaźniki wykrycia AI powinny sygnalizować nauczycielowi.
Turnitin chwali się, że ich detektor sztucznej inteligencji ma 99-procentowy wskaźnik skuteczności, w porównaniu z prawie jednoprocentowym wskaźnikiem wyników fałszywie dodatnich (czyli liczbą zgłoszeń, które nieprawidłowo stwierdziły, że tekst został wygenerowany przez AI). Dokładność ta została podważona przez niedawne badanie, które wykazało, że Turnitin wykrył tekst wygenerowany przez sztuczną inteligencję tylko w około 61 procentach przypadków.
To samo badanie zasugerowało, jak różne czynniki mogą kształtować wskaźniki skuteczności. Na przykład skuteczność GPTZero może wynosić nawet 26%, zwłaszcza jeśli uczniowie edytują treści uzyskane przez narzędzie AI. Jednak inne badanie tego samego detektora wykazało szeroki zakres wyników (na przykład od 23% do 82% lub od 74% do 100% skuteczności).
Uwzględnienie liczb w kontekście
Wartość procentowa zależy od kontekstu. W większości kursów edukacyjnych bycie poprawnym w 99 procentach przypadków jest bardzo rzadkie. Wynik ten przekracza najbardziej powszechny próg istotności statystycznej w badaniach akademickich, który jest często ustalany na poziomie 95%.
Ale 99-procentowy wskaźnik sukcesu byłby okropny w przypadku podróży lotniczych. Tam wskaźnik ten oznaczałby około 500 wypadków lotniczych dziennie w samych Stanach Zjednoczonych. Taki poziom porażki byłby niedopuszczalny.
Podam przykład jak mogłoby to wyglądać w środowisku uniwersyteckim: w instytucji takiej jak moja, University of Winnipeg, około 10 000 studentów przesyła wiele zadań — moglibyśmy oszacować pięć, dla argumentu — na około pięć kursów każdego roku.
Wynosiłoby to około 250 000 zadań rocznie. Tam nawet 99-procentowy wskaźnik skuteczności oznacza około 2500 niepowodzeń. Te 2500 przypadków, które byłyby sprawdzone pod kątem AI i nieprawidłowo wykryte przez detektory, zmusiłyby nauczycieli i administratorów do podjęcia długich godzin pracy dochodzeniowej, a proces ten wywołałoby stres dla uczniów niesłusznie oskarżonych o oszukiwanie.
Strata czasu na badanie błędnie sprawdzonych prac
Podczas gdy oprogramowanie do wykrywania AI jedynie sygnalizuje możliwe problemy, przekonaliśmy się już, że ludzie są wadliwymi detektorami. Nie jesteśmy w stanie stwierdzić, które z tych 2500 zadań są niepoprawnie sprawdzone przez detektory AI, co oznacza, że oszuści nadal będą łamać zasady, a cenny czas nauczycieli zostanie zmarnowany na dochodzenia dotyczące niewinnych uczniów, którzy nie zrobili nic złego.
Ten problem nie jest nowy. Oszukiwanie było głównym problemem na długo przed ChatGPT. Wszechobecna sztuczna inteligencja jedynie rzuciła światło na istniejący od dawna problem.
W sytuacji, gdy uczniowie mogą plagiatować, zatrudniać oszustów na zlecenie, polegać na ChatGPT lub zlecać napisanie pracy koledze lub siostrze, wiara w prace domowe pisane poza czasem zajęć bez żadnego nadzoru nauczyciela jest nie do obrony. Nie mogę zakładać, że takie zadania domowe reprezentują wkład pracy ucznia, ponieważ nie mogę wiarygodnie stwierdzić, czy uczeń ten rzeczywiście je napisał.
Potrzeba zmiany sposobu oceniania
Rozwiązaniem dla bardziej zaawansowanego oszukiwania nie są bardziej zaawansowane formy wykrywania potencjalnego oszustwa. Skuteczną alternatywą jest zmiana sposobu oceniania — coś, co badacze zajmujący się procedurą oceny w środowisku szkolnym popierali na długo przed pojawieniem się sztucznej inteligencji.
Tak jak nie wydajemy tysięcy dolarów na wykrywacze sprawdzające, czy siostra ucznia zrobiła za niego pracę domową, tak szkoły nie powinny spać spokojnie tylko dlatego, że firmy zajmujące się wykrywaniem AI mają produkt do sprzedania. Jeśli nauczyciele chcą wyciągać prawidłowe wnioski na temat tego, co uczniowie wiedzą i potrafią zrobić, potrzebne są sposoby oceniania, które kładą nacisk na ciągłe ocenianie kształtujące (takie jak projekty, prace w ciągu zajęć i regularne monitorowanie postępów uczniów).
Muszą one być zakorzenione w realnych kontekstach istotnych dla życia uczniów i ich nauki, które koncentrują się na kompleksowej uczciwości akademickiej jako wspólnej odpowiedzialności uczniów, nauczycieli i liderów systemu — a nie tylko na mantrze „nie oszukuj, bo jeśli zauważymy, to zostaniesz ukarany”.
Wydawajmy mniej pieniędzy na wadliwe narzędzia wykrywania AI, a więcej na wspieranie nauczycieli w rozwijaniu ich zdolności oceny w każdych przypadkach.
Dział: Technologia
Autor:
Michael Holden | Tłumaczenie: Olga Mrugasiewicz — praktykantka fundacji: https://fundacjaglosmlodych.org/praktyki/