- Büyük dil modellerinin (LLM) yaygınlaşmasıyla mevcut ödev ve sınavlar öğrenme düzeyini ölçemez hale gelince, öğretim kadrosu ElevenLabs sesli yapay zekası ile gerçek zamanlı sözlü sınavları devreye alarak bunu denedi
- Sınav, proje açıklaması ve vaka soruları olmak üzere iki bölümden oluştu; öğrencilerin karar gerekçelerini ve düşünme süreçlerini doğrudan yapay zekaya açıklaması gerekti
- Claude·Gemini·ChatGPT adlı üç model, tutarlılığı ve geri bildirim kalitesini artırmak için müzakere temelli biçimde not verdi; bu süreç gerçek dersteki zayıf konuyu (deney tasarımı) da ortaya çıkardı
- 36 öğrenci 9 gün boyunca, ortalama 25’er dakika değerlendirildi ve öğrenci başına maliyet 0,42 dolar ile son derece düşük kaldı
- Yapay zeka sözlü sınavları, anlayış odaklı değerlendirmeyi ölçeklenebilir hale getiren yeni bir sınav modeli olabilir
Sorunun fark edilmesi ve sözlü sınavın devreye alınma gerekçesi
- Öğrenci ödevlerinin kalitesi anormal derecede yükselince yapay zekayla yazılmış olabileceği şüphesi doğdu; rastgele sorular sorulduğunda birçok öğrencinin kendi çalışmasını açıklayamadığı görüldü
- LLM erişilebilirliği nedeniyle mevcut ödev ve sınavların güvenilirliği çökerken, gerçek zamanlı düşünme becerisini ölçebilen sözlü sınavlar bir alternatif olarak öne çıktı
- Ancak sözlü sınavların büyük ölçekte yürütülememesi gibi bir sınırı vardı; bunu aşmak için sesli yapay zeka ajanları kullanıldı
ElevenLabs tabanlı sesli ajan yapısı
- ElevenLabs Conversational AI kullanılarak konuşma tanıma, ses sentezi ve sıra yönetimi gibi karmaşık unsurlar tek bir yapıda birleştirildi
- Dinamik değişkenlerle öğrenci adı ve proje bilgileri aktarıldı; iş akışı yapısıyla kimlik doğrulama, proje ve vaka sorgulama ajanları ayrıştırıldı
- Kimlik doğrulama ajanı: öğrenci kimliğini doğrulama
- Proje ajanı: gönderilen materyal üzerinden soru sorma
- Vaka ajanı: rastgele bir vaka seçip soru sorma
- Birden çok küçük ajana bölerek konuşmanın raydan çıkması engellendi ve hata ayıklama kolaylaştırıldı
Sınavın yürütülmesi ve sayısal sonuçlar
- Toplam 36 öğrenci, 9 gün boyunca, ortalama 25 dakika (en kısa 9 dakika, en uzun 64 dakika) değerlendirildi
- Ortalama 65 mesaj alışverişi, toplam 15 dolar maliyet (öğrenci başına 0,42 dolar)
- LLM notlandırma sonuçlarının %89’u 1 puan içinde örtüştü; en kısa sınav (9 dakika) en yüksek puanı (19/20) aldı
- İnsan notlandırmasına kıyasla 50 katın üzerinde maliyet tasarrufu sağlandı; gerçek zamanlı değerlendirme, kayıt ve geri bildirim otomasyonu başarıldı
Yaşanan sorunlar ve iyileştirme adımları
- Öğrencilerden ses tonunun baskılayıcı olduğu yönünde geri bildirim geldi → farklı sesler için A/B testleri planlanıyor
- Soruların üst üste binmesi (stack) sorunu → “aynı anda tek soru” kuralı eklendi
- Soru tekrarında anlamın değişmesi → “cümleyi aynen tekrar et” ifadesi açıkça belirtildi
- Düşünme süresinin yetersizliği → bekleme süresi 10 saniyeye çıkarıldı
- Vakanın rastgele seçilememesi → kod seviyesinde rastgele sayı eşlemesiyle çözüldü
LLM müzakereyle notlandırma (council grading)
- Claude·Gemini·ChatGPT bağımsız olarak not verdi, ardından birbirlerinin değerlendirmelerini gözden geçirip düzeltti
- İlk turda not uyumsuzluğu yüksekti, ancak ikinci tur müzakere sonrasında 1 puan içindeki uyum oranı %62’den %85’e yükseldi
- Gemini ortalamada notları 2 puan aşağı çekti; Claude ile OpenAI arasında tutarlılık yüksekti
- Deney tasarımı maddesinde not uyuşmazlığı en yüksekti; bunun öğrencilerin yanıtlarındaki belirsizlikten kaynaklandığı değerlendirildi
- Yapay zeka notlandırması insanlardan daha katı ama adil bulundu; geri bildirimler ise somut ve eylem odaklı olarak öne çıktı
Eğitsel içgörüler ve teşhis
- Konulara göre başarı analizi, deney tasarımında ortalama 1,94/4 ile en düşük performansı gösterdi
- 0 puan %8, 1 puan %19, 2 puan %42, 4 puan %0
- Ders içinde A/B testinin yeterince açıklanmaması bunun nedeni olarak ortaya çıktı ve öğretim tarafında iyileştirme gereksinimini gösterdi
- Sınav süresi ile puan arasında ilişki yoktu (r=-0.03); kısa ve net yanıtlar daha yüksek puanlarla ilişkilendirildi
Kopya önleme ve şeffaflık
- Öğrenciler için web kamerası ve ses kaydı zorunlu tutuldu; böylece dışarıdan yardım alma ihtimali engellendi
- Sınav yapısı ve soru türleri yayınlanmış kılavuzlarla işletildi ve soru sızdırma riski ortadan kaldırıldı
- Öğrenciler aynı yapı üzerinde tekrar tekrar pratik yapabildi; bu da gerçek öğrenme etkisini güçlendirdi
Öğrenci tepkileri
- Yalnızca %13’ü yapay zeka sözlü sınavını tercih etti, %57’si geleneksel yazılı sınavı tercih etti ve %83’ü daha fazla stres yaşadığını söyledi
- Buna rağmen %70’i bunun gerçek anlayışı iyi ölçtüğünü kabul etti; yani değerlendirmeye duyulan güven yüksekti
- İstenilen zaman ve yerde sınava girebilme esnekliği olumlu değerlendirildi
- İyileştirme talepleri: daha düşük tempo, daha sakin bir ses, tek soru yaklaşımı
Gelecekteki iyileştirme planları
- Hız ayarı ve ses çeşitliliği, öğrenci teslimlerine dayalı RAG sorguları, vakaların açık rastgele tohumlarla dağıtılması
- LLM’ler arasında not uyuşmazlığı olduğunda insan incelemesini tetikleyen bir mekanizma eklenmesi
- Erişilebilirliğin güçlendirilmesi: alıştırma modu, ek süre ve alternatif yöntemler sağlanması
Sonuç: Yapay zekayla ölçeklenebilen anlayış odaklı değerlendirme
- Ödev ve yazılı sınav temelli ölçme, LLM çağında etkisini yitiriyor; gerçek zamanlı düşünme değerlendirmesine geçiş gerekiyor
- Yapay zeka sözlü sınavları anlayış, muhakeme ve doğaçlama düşünmeyi ölçüyor ve büyük ölçekte uygulanabilen yeni bir değerlendirme biçimi sunuyor
- Soru sızdırma riski olmadan tekrarlı pratik yoluyla öğrenmeyi güçlendirmek mümkün
- “Fight fire with fire” — yapay zekanın yarattığı sorunu yine yapay zekayla çözmeye çalışan bir değerlendirme yeniliği
1 yorum
Hacker News görüşleri
Makalede sunulan verilerle sonuçların örtüşmediğini düşünüyorum
Öğrenciler AI ile konuştuktan sonra bile hâlâ yazılı sınavı tercih etmiş
Üniversiteler yüzlerce yıldır kopyayı önleyerek yazılı sınav yapıyordu; pandemi sonrası çevrimiçi değerlendirme gibi ‘köşeli tekerlekler’ benimsendi ama aslında yeniden yuvarlak tekerleğe dönmek daha iyi olurdu benzetmesini yapmak istiyorum
LLM değerlendirmesinin doğruluğu da doğrulanmamış. Sonuçta, sanki önce sonuca karar verilip veriler ona uydurulmuş gibi
‘Take-home sınavlar bitti’ demek apaçık bir gözlem, deneyin sonucu değil
Artık tek başına bile kopya çekmek çok kolay
Ayrıca her akademik alanın değerlendirme yöntemi farklı olmalı; bilgisayar mühendisliği gibi yeni alanlarda değerlendirme olgunluğu hâlâ yetersiz
Son olarak, öğrencinin tercihi sınavın kalitesini ölçme kriteri değildir
Gerçekte sık sık insanların önünde kendi karar verme gerekçelerini açıklamak gerekir
Pandemi döneminde yüz yüze deneyimi azalan bir kuşağın konuşmaktan çekinmesini anlamak mümkün ama bu tür kaygıyı aşma pratiği aslında faydalı olabilir
Take-home sınavlarda kopya çekme olasılığı arttığı için, sözlü sınav kusursuz olmasa da daha iyi bir alternatif olabilir
Eskiden bütün sınavlar AI’ın devreye girmesine hiç imkân bırakmıyordu
Kalemle el yazısıyla yazılır, gözetmenlerin izlediği spor salonlarında sınava girilirdi
Kopya çekmenin cezası okuldan atılmaktı ve binlerce öğrencinin yalnızca %1’i mezun oluyordu
Şimdi sınavları AI’a göre değiştirelim denince bu bana delilik gibi geliyor. Zaten bir çözüm vardı
Sonuçta bu, bütün sorumluluğu öğrenciye yıkan bir yapıydı; sorun hocanın tembelliği ve aynı sınav sorularının yeniden kullanılmasıydı
Gerçek çözüm her seferinde yeni sorular hazırlamak ve farklı tiplerde soru sormaktır
Bence okulun sağladığı geliştirme ortamına sahip bilgisayarlarda sınav yapmak daha iyi olur
Eğer bu doğruysa, ölçeklenebilir bir sözlü sınav yöntemi bulmak anlamlı olur
Ölçeklenebilirlik takıntısı gereksiz
Üniversitelerin parası var; hoca doğrudan kendi sözlü sınavını yapabilir
Almanya’da yüksek lisansta da sık sık sözlü sınav olduk ve iyi işliyordu
AI’a dayanmak tembelliğin simgesi gibi geliyor
AI tekrar eden işlerde iyi olabilir ama çatışmalı durumlarda güven vermiyor
Ben de lisans döneminde sözlü sınav oldum; hocanın tavrındaki değişim o kadar büyüktü ki gerilim aşırı yüksekti
AI’ın böyle bir duygusal baskı yaratıp yaratamayacağından emin değilim
Hatta ben daha çok AI’ın küçük hatalarına sinir oluyorum
Ama ben böyle durumlarda donup kalıyor, hiçbir şey söyleyemiyorum. Gerçekten çok zor
Eskiden işe alım sürecinde take-home ödevi verirdik ama bazı adaylar teslim ettikleri kodu açıklayamıyordu
LLM’lerin ortaya çıkmasıyla birlikte bunu AI’a yazdırma cazibesi çok daha arttı
Oysa bizim değerlendirmemiz gereken şey adayın problem çözme becerisi ve iletişim yeteneği
LLM’e izin verilen mülakatlar sonunda “AI kullanma becerisi testi”ne dönüşüyor
Makaledeki yönteme katılmıyorum ama sorunun kendisi gayet gerçekçi
Bir sonraki adım, sorulara sesle cevap veren AI yerine başka bir AI kullanmak olabilir
Sonunda yeniden insanı merkeze koymak gerekecek
Yakında akıllı gözlükler, kemik iletimli mikrofonlar vb. ile işler daha da ustaca yapılacak
Sonunda zararı görenler yalnızca dürüst ama sosyal kaygısı olan öğrenciler olacak
Dönem içinde gönüllü deneme sözlü sınavları yapmak iyi olabilir
Öğrenciler biçime alışır, ses tonuna da adapte olur
Yaklaşık 36 kişi için sözlü sınavın imkânsız denmesi şaşırtıcı
Asıl gerçek öğrenme yöntemi de işte bu tekrar yoluyla öğrenmedir
$25 iade alıp sınavı LLM’in yapmasını kesinlikle istemem
Öğrencilerin sadece bir kısmı örneklem olarak seçilirse bu aynı anda hem motivasyon hem de hayal kırıklığı yaratabilir
En azından üst düzey öğrencilerle 10 dakikalık sözlü görüşmeler yapmak gayet mümkün
Bir AI ses uygulaması tarafından sorgulanma fikri bile korkunç
Bu yaklaşım sürecekse, belki de değerlendirmesiz bir eğitim modeli gerekecek
Bir insana asla söylemeyeceğim şeyleri rahatça söyledim
Ben tam da o blog yazısının yazarıyım
AI dersimizde sadece yeni bir şey denedik
Yazılı sınavı kaldırmaya çalışmıyoruz; sözlü sınavı ek bir araç olarak kullanıyoruz
Amaç, takım projesinde öğrencinin gerçekten kendi yaptığı işi anlayıp anlamadığını kontrol etmekti
Sözlü sınavda düşük not alan öğrencilerin, beklendiği gibi projeyi de daha az anladığı görüldü
36 kişi düzeyinde birebir görüşme mümkün ama 100’ü geçince zorlaşıyor
Her şeyden önemlisi, AI yorulmadığı için tutarlı değerlendirme sunduğunu gösteren araştırmalar vardı. Bu yüzden güvendim
Bu, spor salonunda forklift kullanmak gibi bir şey
MBA düzeyinde basit derslerde belki olabilir ama ince yargı gerektiren derslerde AI adil değil
Böyle basit doğrulama sınavları için bence kioskta çoktan seçmeli test yapmak daha mantıklı
Bizim zamanımızda bütün sınavlar sözlüydü
Büyük sınavlar iki gün sürerdi ama hoca ve asistanlar yılda 6 oturum düzenlerdi
Nedenlerden biri adaletin kültürel olarak farklı yorumlanmasıydı
Çeşitliliğin yüksek olduğu ortamlarda sözlü sınavlar önyargı tartışmalarına yol açabiliyor
Eğer AI’a $5 verip notlandırmayı yaptırarak 20 saati telefonda scroll yaparak geçirebileceklerse, muhtemelen onu seçerler