W przywoływanym już wydaniu 07-08/2018 periodyku „Edukacja i Dialog” ukazał się zapis rozmowy, którą Rafał Zalcman przeprowadził z prof. Krzysztofem Konarzewskim. W wywiadzie poruszane są głównie kwestie związane z egzaminami zewnętrznymi. Zachęcamy do lektury!
Pośród licznych argumentów podnoszonych przez krytyków systemu egzaminów zewnętrznych szczególnie uderzający jest – paradoksalnie – jeden z bodaj najmniej eksponowanych, sprowadzający się do stwierdzenia, iż celem owego systemu nie jest, jakby się mogło wydawać, zdiagnozowanie stanu wiedzy i umiejętności egzaminowanych, ale raczej potwierdzenie, że stan ów jest zgodny z oczekiwanym. Mam tu na myśli chociażby ustalenie progu zdawalności najbardziej doniosłego z egzaminów – matury – na poziomie 30%. Próg ten, jak słusznie zauważa prof. Bolesław Niemierko, „pozwala uczniowi pominąć ponad dwie trzecie zakresu programowego”, co o dziwo zdaje się „uchodzić uwadze niespecjalistów pomiaru”…
Krzysztof Konarzewski. Diagnoza to termin bezpodstawnie przejęty przez pedagogów z języka praktyki medycznej. Specjaliści w dziedzinie pomiaru osiągnięć szkolnych nie diagnozują wiedzy, lecz szacują poziom poszczególnych kompetencji (np. polonistycznej czy matematycznej) każdego ucznia oraz wielkość niepewności tego oszacowania. Mówią: w takiej a takiej skali pomiarowej oszacowana wartość kompetencji matematycznej Jana wynosi x, a niepewność – e. Znaczy to, że „prawdziwa” wartość kompetencji Jana leży w przedziale od x – 2e do x + 2e. Na skali pomiarowej można wyróżnić jedną wartość i powiedzieć: to jest próg. Każdy wynik poniżej tego progu oznacza, że egzamin jest niezdany. Żaden ekspert nie podejmie się jednak uzasadnienia takiego progu, bo jest on arbitralny.
Ustawowy próg zdawalności matury to decyzja polityków, a nie ekspertów. Ekspert chce jedynie dostarczyć rzetelnej informacji o poziomie kompetencji ucznia. Wykorzystanie tej informacji to sprawa użytkownika. Matura jest u nas potrzebna wyłącznie po to, by móc pójść na studia. Do tego ustawowy próg zdawalności jest niepotrzebny, bo każda uczelnia, a nawet wydział, może określić własny próg rekrutacyjny, i to nie arbitralnie, lecz na podstawie doświadczenia (np. „U nas kandydaci z matematyką poniżej 75 proc. potem na ogół sobie nie radzą”). Politycy wprowadzili jednak centralny próg, bo – jak powiedział jeden z nich – dziś uczelnie biorą wszystko, co się rusza. W ostatnich latach egzamin maturalny odsiewa z puli 14–18 proc. potencjalnych kandydatów (ciekawe, że co roku mniej: w 2015 18 proc., a w 2018 tylko 14 proc.). Gdyby progu nie było, studia podejmowałoby nieco więcej osób – przeważnie na prywatnych uczelniach, gdzie wystarczy świadectwo dojrzałości. Nasuwa się pytanie: dlaczego to akurat szkolnictwo średnie ma być stróżem jakości wyższego wykształcenia? O odpowiedź nietrudno: bo państwo nie radzi sobie z kontrolą wartości dyplomów szkolnictwa wyższego.
A na koniec drobne sprostowanie: skala pomiarowa stosowana w naszych egzaminach nie koresponduje z żadną miarą realizacji programu nauczania, dlatego nie można oczekiwać, że uczeń, który opuścił połowę lekcji, zdobędzie na egzaminie tylko 50 proc. możliwych punktów, i nie można powiedzieć, że uczeń, który uzyskał na egzaminie 30 proc. punktów, opanował jedynie 30 proc. wymagań programowych. Tak by było tylko wtedy, gdyby przełożono cały program na zadania egzaminacyjne i aplikowano egzaminowanym ich losową próbkę. Taka strategia, zwana pomiarem kryterialnym, a przez prof. Niemierkę sprawdzającym, ma swoich zwolenników, ale w krajowych egzaminach zewnętrznych zastosować się nie daje.
Niemalże rokrocznie przy okazji składania przez abiturientów matur przez kraj przetacza się dyskusja na temat (wątpliwej) jakości testów/zadań egzaminacyjnych. Ilekroć rytuał ten się powtarza, zachodzę w głowę, kiedy (a coraz częściej – czy w ogóle) rodzimi decydenci oświatowi dojrzeją do decyzji o wprowadzeniu w obszar systemu egzaminów zewnętrznych mechanizmów wolnorynkowych. Albowiem sytuacja, w której jedna i ta sama instytucja najpierw opracowuje testy, następnie przeprowadza egzaminy, aby w końcu poddać jedne oraz drugie ocenie, musi budzić i budzi uzasadnione wątpliwości. Dość przypomnieć, iż swego czasu zgoła podobny dylemat legł u podstaw wprowadzenia… oceniania zewnętrznego.
Arkusze egzaminacyjne CKE są różne – jedne to rasowe testy (np. z matematyki – te mają najwyższą jakość), inne to zbiory zadań (np. z języka polskiego – o tych można powiedzieć wiele gorzkich słów), jeszcze inne to mieszanka obu tych form sprawdzania wiedzy ucznia. Co roku późną wiosną odprawia się w Polsce – jak pięknie pan to nazwał – rytuał, który polega na wrzuceniu wszystkich arkuszy do jednego worka i narzekaniu na ich niską jakość. Ten rytuał zapewnia dziennikarzom poklask gawiedzi, ale racjonalny nie jest.
Po przestudiowaniu samego arkusza, gdy już zostanie opublikowany po egzaminie, można zasadnie wskazać jedynie znaczące błędy rzeczowe i logiczne. Najgrubszy błąd, jaki pamiętam, zdarzył się w pierwszych latach działalności CKE i polegał na przypisaniu Komisji Edukacji Narodowej inicjatywy Sejmu Czteroletniego. Później takich błędów było coraz mniej, a z ostatnich lat nie przypominam sobie żadnego. Można też odkryć błędy w budowie pytań – grube, na przykład więcej niż jedną poprawną opcję w zadaniu wyboru, i subtelne, np. postawienie poważnych pytań do ironicznego tekstu. I takich błędów z roku na rok ubywa. Najważniejsze jednak, że wspomniane rodzaje błędów mają minimalny wpływ na wyniki egzaminacyjne. Naprawdę groźne błędy pomiarowe można wykryć dopiero po otrzymaniu wyników egzaminu, czyli najwcześniej jesienią, gdy o wiosennych egzaminach nikt już nie pamięta.
Wykrywanie błędów pomiarowych jest pracochłonne i wymaga zaawansowanych kwalifikacji. Najlepiej, gdy robi to zespół, w skład którego wchodzi statystyk biegły w komputerowym przetwarzaniu wielkich baz danych i specjaliści zajmujący się na co dzień budowaniem zadań egzaminacyjnych. CKE powołała taki zespół, ale szybko musiała go rozwiązać, bo zabrakło pieniędzy. Niedane nam było sprawdzić, czy coroczna informacja zwrotna z takiego audytu podniosłaby jakość narzędzi egzaminacyjnych.
Jest oczywiste, że tę jakość można i należy podnieść, ale mechanizmy rynkowe w tym nie pomogą. Jakość narzędzi zależy od profesjonalizmu i wyposażenia ośrodka, który je tworzy i który przetwarza dane, a nie od tego, czy jest państwowy, jak u nas, czy prywatny, jak w USA. Przyznaję, że prywatyzacja CKE miałaby dobry skutek, gdyby skutkowała uniezależnieniem od dławiącego wpływu MEN, ale obawiam się, że MEN łatwo by się nie poddało. Dlatego więcej nadziei wiązałbym z przyznaniem CKE podobnego statusu w systemie oświaty, jakim cieszy się NIK w systemie państwa.
Być może zasadna byłaby swoista decentralizacja egzaminów zewnętrznych poprzez scedowanie przez Centralną Komisję Egzaminacyjną części czy nawet większości kompetencji na komisje okręgowe, których rola w ostatnim czasie została zupełnie zmarginalizowana? Taki ruch umożliwiłby także postulowane przez liczne grono ekspertów – głównie historyków i geografów – uwzględnienie w konstruowanych zadaniach specyfiki regionalnej obszaru, na którym uczeń żyje i przystępuje do egzaminu.
Kraj, który ma trudności z utrzymaniem jednego profesjonalnego ośrodka egzaminacyjnego, nie powinien rozpraszać szczupłych zasobów na wiele ośrodków. Regionalizacja egzaminu z historii zapowiada się obiecująco, dopóki nie zapytamy, jak zapewnić porównywalność wyników egzaminacyjnych w skali całego kraju.
Utrzymywanie ośmiu komisji okręgowych, z których każda robi to samo na swoim terenie, jest jawnie nieracjonalne. Na system powinien się składać „mózg” – centralny ośrodek badawczo-rozwojowy odpowiedzialny za tworzenie arkuszy egzaminacyjnych i przetwarzanie danych, oraz „ręce” – centralny ośrodek logistyczny z własną drukarnią, który odpowiadałby za druk, dystrybucję i ocenianie prac. „Mózg” powinien być umocowany w ustawie o systemie oświaty jako niezależny od ministra ośrodek kontroli efektów kształcenia. „Ręce” można spokojnie sprywatyzować.
Tylko na przestrzeni pół dekady objętej badaniem przez NIK (lata 2009–2014) w Centralnej Komisji Egzaminacyjnej obowiązywało kolejno aż dziewięć różnych procedur przygotowywania zadań egzaminacyjnych. Wszelako żadna ze wspomnianych modyfikacji nie doprowadziła do pełnej standaryzacji zawartości arkuszy egzaminacyjnych. O ile bowiem zadania zamknięte oraz krótkie zadania otwarte, jakkolwiek na próbie niereprezentatywnej, poddawano testowaniu, o tyle zadania wymagające poszerzonej odpowiedzi, w obawie przed ich odtajnieniem, wartościowane były wyłącznie przez konstruujących je „sędziów kompetentnych”…
Widzę w tym skutki grzechu pierworodnego – poglądu, że egzamin zewnętrzny to klasówka, tyle że o zasięgu krajowym. Matki-założycielki systemu wierzyły, że do ułożenia takiej klasówki wystarczy skrzyknąć grupę mądrych nauczycieli. Przeforsowały nawet przepis zabraniający zatrudniać w CKE ludzi, niechby i profesorów uniwersytetu, którzy nie mieli uprawnień nauczycielskich. Ale osiem czy dziesięć takich ogólnopolskich klasówek rocznie kosztowałoby krocie, więc zdecydowano się na tańsze formy testowe. Te jednak miały swoje wymagania, którym grupa mądrych nauczycieli nie potrafiła sprostać. Dlatego wypróbowywano różne kompromisowe procedury, z których żadna nie okazała się w pełni zadowalająca.
Kłopotów by nie było, gdyby od początku budowano egzaminy zewnętrzne na podstawie nowoczesnej teorii pomiaru osiągnięć szkolnych. Jedną z najbardziej obiecujących procedur jest tworzenie arkuszy z tzw. banków zadań. Wymaga ona standaryzacji zadania przed wprowadzeniem go do banku, ale zwalnia ze standaryzacji całego arkusza. CKE, za pieniądze Unii Europejskiej, podjęła prace nad budową takich banków i zaczątki kilku z nich nawet powstały, ale o ile wiem, zawiesiła ich kontynuację, przygnieciona bieżącymi obowiązkami i konserwatyzmem MEN. Ten konserwatyzm poniekąd rozumiem, bo przestawianie funkcjonującego już systemu na nowe tory zawsze jest ryzykowne.
Przy okazji kolejnych sesji egzaminacyjnych z niepokojącą wręcz regularnością powraca scenariusz, w ramach którego, pomimo (kadłubowego) weryfikowania zadań, post factum okazuje się, że któreś z pytań sformułowano na tyle niejednoznacznie, iż za poprawną uznać należy także odpowiedź początkowo nieuwzględnioną w kluczu. W przedstawionych okolicznościach wartością niepodlegającą „rekompensacie” pozostaje czas poświęcony przez zdającego na roztrząsanie wątpliwości związanych ze wspomnianą nieprecyzyjnością zadania.
Trzeba tu rozróżnić dwie sprawy. Samo zadanie może być sformułowane nieprecyzyjnie albo klucz może nie uwzględniać wszystkich poprawnych odpowiedzi. Druga z tych możliwości nie jest groźna, ponieważ wstępny klucz poprawia się tuż po egzaminie na podstawie dużej próbki odpowiedzi. Inaczej z pierwszą. W 2009 r. kazano gimnazjalistom obliczyć powierzchnię dwuspadowego dachu, nie informując, że jego przekrojem jest trójkąt równoramienny. Słabsi uczniowie nieświadomie „dośpiewali” sobie ten warunek, mocniejsi znaleźli się w niemałym kłopocie. Takie błędy, na szczęście rzadkie, biorą się z wadliwej procedury budowania arkuszy. Gdyby zadanie oglądano ze wszystkich stron, zanim zostanie wprowadzone do banku, pewnie by się nie zdarzały.
Krzysztof Konarzewski - profesor pedagogiki zatrudniony we Wszechnicy Świętokrzyskiej w Kielcach, krajowy koordynator badań TIMSS i PIRLS (2004–2017), kierownik projektu podstawy programowej kształcenia ogólnego w ISP (2004–2005), dyrektor CKE (2009–2010); strona osobista: www.konarzewski.neostrada.pl.
* * *
Z pełną treścią rozmowy zapoznać się można sięgając po czasopismo „Edukacja i Dialog”.