2 puan yazan GN⁺ 2026-01-05 | 1 yorum | WhatsApp'ta paylaş
  • Büyük dil modellerinin (LLM) yaygınlaşmasıyla mevcut ödev ve sınavlar öğrenme düzeyini ölçemez hale gelince, öğretim kadrosu ElevenLabs sesli yapay zekası ile gerçek zamanlı sözlü sınavları devreye alarak bunu denedi
  • Sınav, proje açıklaması ve vaka soruları olmak üzere iki bölümden oluştu; öğrencilerin karar gerekçelerini ve düşünme süreçlerini doğrudan yapay zekaya açıklaması gerekti
  • Claude·Gemini·ChatGPT adlı üç model, tutarlılığı ve geri bildirim kalitesini artırmak için müzakere temelli biçimde not verdi; bu süreç gerçek dersteki zayıf konuyu (deney tasarımı) da ortaya çıkardı
  • 36 öğrenci 9 gün boyunca, ortalama 25’er dakika değerlendirildi ve öğrenci başına maliyet 0,42 dolar ile son derece düşük kaldı
  • Yapay zeka sözlü sınavları, anlayış odaklı değerlendirmeyi ölçeklenebilir hale getiren yeni bir sınav modeli olabilir

Sorunun fark edilmesi ve sözlü sınavın devreye alınma gerekçesi

  • Öğrenci ödevlerinin kalitesi anormal derecede yükselince yapay zekayla yazılmış olabileceği şüphesi doğdu; rastgele sorular sorulduğunda birçok öğrencinin kendi çalışmasını açıklayamadığı görüldü
  • LLM erişilebilirliği nedeniyle mevcut ödev ve sınavların güvenilirliği çökerken, gerçek zamanlı düşünme becerisini ölçebilen sözlü sınavlar bir alternatif olarak öne çıktı
  • Ancak sözlü sınavların büyük ölçekte yürütülememesi gibi bir sınırı vardı; bunu aşmak için sesli yapay zeka ajanları kullanıldı

ElevenLabs tabanlı sesli ajan yapısı

  • ElevenLabs Conversational AI kullanılarak konuşma tanıma, ses sentezi ve sıra yönetimi gibi karmaşık unsurlar tek bir yapıda birleştirildi
  • Dinamik değişkenlerle öğrenci adı ve proje bilgileri aktarıldı; iş akışı yapısıyla kimlik doğrulama, proje ve vaka sorgulama ajanları ayrıştırıldı
    • Kimlik doğrulama ajanı: öğrenci kimliğini doğrulama
    • Proje ajanı: gönderilen materyal üzerinden soru sorma
    • Vaka ajanı: rastgele bir vaka seçip soru sorma
  • Birden çok küçük ajana bölerek konuşmanın raydan çıkması engellendi ve hata ayıklama kolaylaştırıldı

Sınavın yürütülmesi ve sayısal sonuçlar

  • Toplam 36 öğrenci, 9 gün boyunca, ortalama 25 dakika (en kısa 9 dakika, en uzun 64 dakika) değerlendirildi
  • Ortalama 65 mesaj alışverişi, toplam 15 dolar maliyet (öğrenci başına 0,42 dolar)
  • LLM notlandırma sonuçlarının %89’u 1 puan içinde örtüştü; en kısa sınav (9 dakika) en yüksek puanı (19/20) aldı
  • İnsan notlandırmasına kıyasla 50 katın üzerinde maliyet tasarrufu sağlandı; gerçek zamanlı değerlendirme, kayıt ve geri bildirim otomasyonu başarıldı

Yaşanan sorunlar ve iyileştirme adımları

  • Öğrencilerden ses tonunun baskılayıcı olduğu yönünde geri bildirim geldi → farklı sesler için A/B testleri planlanıyor
  • Soruların üst üste binmesi (stack) sorunu → “aynı anda tek soru” kuralı eklendi
  • Soru tekrarında anlamın değişmesi → “cümleyi aynen tekrar et” ifadesi açıkça belirtildi
  • Düşünme süresinin yetersizliği → bekleme süresi 10 saniyeye çıkarıldı
  • Vakanın rastgele seçilememesi → kod seviyesinde rastgele sayı eşlemesiyle çözüldü

LLM müzakereyle notlandırma (council grading)

  • Claude·Gemini·ChatGPT bağımsız olarak not verdi, ardından birbirlerinin değerlendirmelerini gözden geçirip düzeltti
  • İlk turda not uyumsuzluğu yüksekti, ancak ikinci tur müzakere sonrasında 1 puan içindeki uyum oranı %62’den %85’e yükseldi
  • Gemini ortalamada notları 2 puan aşağı çekti; Claude ile OpenAI arasında tutarlılık yüksekti
  • Deney tasarımı maddesinde not uyuşmazlığı en yüksekti; bunun öğrencilerin yanıtlarındaki belirsizlikten kaynaklandığı değerlendirildi
  • Yapay zeka notlandırması insanlardan daha katı ama adil bulundu; geri bildirimler ise somut ve eylem odaklı olarak öne çıktı

Eğitsel içgörüler ve teşhis

  • Konulara göre başarı analizi, deney tasarımında ortalama 1,94/4 ile en düşük performansı gösterdi
    • 0 puan %8, 1 puan %19, 2 puan %42, 4 puan %0
  • Ders içinde A/B testinin yeterince açıklanmaması bunun nedeni olarak ortaya çıktı ve öğretim tarafında iyileştirme gereksinimini gösterdi
  • Sınav süresi ile puan arasında ilişki yoktu (r=-0.03); kısa ve net yanıtlar daha yüksek puanlarla ilişkilendirildi

Kopya önleme ve şeffaflık

  • Öğrenciler için web kamerası ve ses kaydı zorunlu tutuldu; böylece dışarıdan yardım alma ihtimali engellendi
  • Sınav yapısı ve soru türleri yayınlanmış kılavuzlarla işletildi ve soru sızdırma riski ortadan kaldırıldı
  • Öğrenciler aynı yapı üzerinde tekrar tekrar pratik yapabildi; bu da gerçek öğrenme etkisini güçlendirdi

Öğrenci tepkileri

  • Yalnızca %13’ü yapay zeka sözlü sınavını tercih etti, %57’si geleneksel yazılı sınavı tercih etti ve %83’ü daha fazla stres yaşadığını söyledi
  • Buna rağmen %70’i bunun gerçek anlayışı iyi ölçtüğünü kabul etti; yani değerlendirmeye duyulan güven yüksekti
  • İstenilen zaman ve yerde sınava girebilme esnekliği olumlu değerlendirildi
  • İyileştirme talepleri: daha düşük tempo, daha sakin bir ses, tek soru yaklaşımı

Gelecekteki iyileştirme planları

  • Hız ayarı ve ses çeşitliliği, öğrenci teslimlerine dayalı RAG sorguları, vakaların açık rastgele tohumlarla dağıtılması
  • LLM’ler arasında not uyuşmazlığı olduğunda insan incelemesini tetikleyen bir mekanizma eklenmesi
  • Erişilebilirliğin güçlendirilmesi: alıştırma modu, ek süre ve alternatif yöntemler sağlanması

Sonuç: Yapay zekayla ölçeklenebilen anlayış odaklı değerlendirme

  • Ödev ve yazılı sınav temelli ölçme, LLM çağında etkisini yitiriyor; gerçek zamanlı düşünme değerlendirmesine geçiş gerekiyor
  • Yapay zeka sözlü sınavları anlayış, muhakeme ve doğaçlama düşünmeyi ölçüyor ve büyük ölçekte uygulanabilen yeni bir değerlendirme biçimi sunuyor
  • Soru sızdırma riski olmadan tekrarlı pratik yoluyla öğrenmeyi güçlendirmek mümkün
  • “Fight fire with fire” — yapay zekanın yarattığı sorunu yine yapay zekayla çözmeye çalışan bir değerlendirme yeniliği

1 yorum

 
GN⁺ 2026-01-05
Hacker News görüşleri
  • Makalede sunulan verilerle sonuçların örtüşmediğini düşünüyorum
    Öğrenciler AI ile konuştuktan sonra bile hâlâ yazılı sınavı tercih etmiş
    Üniversiteler yüzlerce yıldır kopyayı önleyerek yazılı sınav yapıyordu; pandemi sonrası çevrimiçi değerlendirme gibi ‘köşeli tekerlekler’ benimsendi ama aslında yeniden yuvarlak tekerleğe dönmek daha iyi olurdu benzetmesini yapmak istiyorum

    • Deney sonuçları açıkça iyi değilken yazarın bunu “büyük başarı” diye sunması şaşırtıcı
      LLM değerlendirmesinin doğruluğu da doğrulanmamış. Sonuçta, sanki önce sonuca karar verilip veriler ona uydurulmuş gibi
    • Alıntılanan cümle bir sonuç değil, sadece bir iddia
      ‘Take-home sınavlar bitti’ demek apaçık bir gözlem, deneyin sonucu değil
      Artık tek başına bile kopya çekmek çok kolay
      Ayrıca her akademik alanın değerlendirme yöntemi farklı olmalı; bilgisayar mühendisliği gibi yeni alanlarda değerlendirme olgunluğu hâlâ yetersiz
      Son olarak, öğrencinin tercihi sınavın kalitesini ölçme kriteri değildir
    • Öğrencilerin yazılı sınavı tercih etmesi bunun en iyi yöntem olduğu anlamına gelmez
      Gerçekte sık sık insanların önünde kendi karar verme gerekçelerini açıklamak gerekir
      Pandemi döneminde yüz yüze deneyimi azalan bir kuşağın konuşmaktan çekinmesini anlamak mümkün ama bu tür kaygıyı aşma pratiği aslında faydalı olabilir
    • Çevrimiçi derslerde yazılı sınav zor
      Take-home sınavlarda kopya çekme olasılığı arttığı için, sözlü sınav kusursuz olmasa da daha iyi bir alternatif olabilir
    • Öğrenciyle öğretmen arasındaki kopya-gözetim yarışı yüzlerce yıldır sürüyor
  • Eskiden bütün sınavlar AI’ın devreye girmesine hiç imkân bırakmıyordu
    Kalemle el yazısıyla yazılır, gözetmenlerin izlediği spor salonlarında sınava girilirdi
    Kopya çekmenin cezası okuldan atılmaktı ve binlerce öğrencinin yalnızca %1’i mezun oluyordu
    Şimdi sınavları AI’a göre değiştirelim denince bu bana delilik gibi geliyor. Zaten bir çözüm vardı

    • Öğrencilerin %99’unun kaldığı bir sistemi övünecek şey gibi sunmak doğru değil
      Sonuçta bu, bütün sorumluluğu öğrenciye yıkan bir yapıydı; sorun hocanın tembelliği ve aynı sınav sorularının yeniden kullanılmasıydı
      Gerçek çözüm her seferinde yeni sorular hazırlamak ve farklı tiplerde soru sormaktır
    • C++ kodunu elle yazdırmanın gerçekten en iyi değerlendirme biçimi olup olmadığı şüpheli
      Bence okulun sağladığı geliştirme ortamına sahip bilgisayarlarda sınav yapmak daha iyi olur
    • Sözlü sınavların kavrayışı ölçmede daha iyi olduğu da söyleniyor
      Eğer bu doğruysa, ölçeklenebilir bir sözlü sınav yöntemi bulmak anlamlı olur
    • %99 kalma oranına inanmak zor. Böyle bir üniversite kapatılmalı
  • Ölçeklenebilirlik takıntısı gereksiz
    Üniversitelerin parası var; hoca doğrudan kendi sözlü sınavını yapabilir
    Almanya’da yüksek lisansta da sık sık sözlü sınav olduk ve iyi işliyordu

    • Avrupa’da Matura ya da doktora tez savunması gibi sözlü sınavlar yaygındır
      AI’a dayanmak tembelliğin simgesi gibi geliyor
      AI tekrar eden işlerde iyi olabilir ama çatışmalı durumlarda güven vermiyor
  • Ben de lisans döneminde sözlü sınav oldum; hocanın tavrındaki değişim o kadar büyüktü ki gerilim aşırı yüksekti
    AI’ın böyle bir duygusal baskı yaratıp yaratamayacağından emin değilim
    Hatta ben daha çok AI’ın küçük hatalarına sinir oluyorum

    • İtalya’da ilkokuldan üniversiteye kadar her sınavda sözlü bölüm vardır
      Ama ben böyle durumlarda donup kalıyor, hiçbir şey söyleyemiyorum. Gerçekten çok zor
  • Eskiden işe alım sürecinde take-home ödevi verirdik ama bazı adaylar teslim ettikleri kodu açıklayamıyordu
    LLM’lerin ortaya çıkmasıyla birlikte bunu AI’a yazdırma cazibesi çok daha arttı
    Oysa bizim değerlendirmemiz gereken şey adayın problem çözme becerisi ve iletişim yeteneği
    LLM’e izin verilen mülakatlar sonunda “AI kullanma becerisi testi”ne dönüşüyor
    Makaledeki yönteme katılmıyorum ama sorunun kendisi gayet gerçekçi

    • “synthetic pronouns” ifadesi ilginç
  • Bir sonraki adım, sorulara sesle cevap veren AI yerine başka bir AI kullanmak olabilir
    Sonunda yeniden insanı merkeze koymak gerekecek

    • Zaten yalnızca teleprompter bile insanı kandırmaya yeter
      Yakında akıllı gözlükler, kemik iletimli mikrofonlar vb. ile işler daha da ustaca yapılacak
      Sonunda zararı görenler yalnızca dürüst ama sosyal kaygısı olan öğrenciler olacak
    • Sınav alanı onlarca telefon kulübesiyle dolarsa, ofis bölmelerinden bile daha korkunç görünür
  • Dönem içinde gönüllü deneme sözlü sınavları yapmak iyi olabilir
    Öğrenciler biçime alışır, ses tonuna da adapte olur
    Yaklaşık 36 kişi için sözlü sınavın imkânsız denmesi şaşırtıcı

    • Makalenin sonunda değinildiği gibi, AI her seferinde yeni sorular ürettiği için sızıntı kaygısı olmadan pratik yapılabilir
      Asıl gerçek öğrenme yöntemi de işte bu tekrar yoluyla öğrenmedir
    • Bir asistan saat başına $25 alıyorsa, sözlü sınav fazlasıyla yapılabilir
      $25 iade alıp sınavı LLM’in yapmasını kesinlikle istemem
    • Prag’daki Charles University’de 200’den fazla öğrenci de sözlü sınava girdi
    • Bu, sözlü sınavın derinliğine ve sıklığına bağlı
      Öğrencilerin sadece bir kısmı örneklem olarak seçilirse bu aynı anda hem motivasyon hem de hayal kırıklığı yaratabilir
    • Sonuçta fikir, para tasarrufu için sınavı chatbot’la değiştirmek
      En azından üst düzey öğrencilerle 10 dakikalık sözlü görüşmeler yapmak gayet mümkün
  • Bir AI ses uygulaması tarafından sorgulanma fikri bile korkunç
    Bu yaklaşım sürecekse, belki de değerlendirmesiz bir eğitim modeli gerekecek

    • Sonunda en gerçekçi çözüm yine el yazısıyla yapılan sınavlara dönmek olabilir
    • Ben de yakın zamanda bir AI mülakatı yaptım; AI’a yalan söylerken suçluluk hissetmedim
      Bir insana asla söylemeyeceğim şeyleri rahatça söyledim
    • Sınav tamamen ortadan kalkarsa öğrenme motivasyonu korunmaz
  • Ben tam da o blog yazısının yazarıyım
    AI dersimizde sadece yeni bir şey denedik
    Yazılı sınavı kaldırmaya çalışmıyoruz; sözlü sınavı ek bir araç olarak kullanıyoruz
    Amaç, takım projesinde öğrencinin gerçekten kendi yaptığı işi anlayıp anlamadığını kontrol etmekti
    Sözlü sınavda düşük not alan öğrencilerin, beklendiği gibi projeyi de daha az anladığı görüldü
    36 kişi düzeyinde birebir görüşme mümkün ama 100’ü geçince zorlaşıyor
    Her şeyden önemlisi, AI yorulmadığı için tutarlı değerlendirme sunduğunu gösteren araştırmalar vardı. Bu yüzden güvendim

    • LLM kullanımına izin vermenin doğal olduğunu söyleyenlere katılmıyorum
      Bu, spor salonunda forklift kullanmak gibi bir şey
      MBA düzeyinde basit derslerde belki olabilir ama ince yargı gerektiren derslerde AI adil değil
      Böyle basit doğrulama sınavları için bence kioskta çoktan seçmeli test yapmak daha mantıklı
  • Bizim zamanımızda bütün sınavlar sözlüydü
    Büyük sınavlar iki gün sürerdi ama hoca ve asistanlar yılda 6 oturum düzenlerdi

    • Ben de fizik lisans ve yüksek lisansımda çoğunlukla sözlü sınav oldum ama doktora sürecinde bu kayboldu
      Nedenlerden biri adaletin kültürel olarak farklı yorumlanmasıydı
      Çeşitliliğin yüksek olduğu ortamlarda sözlü sınavlar önyargı tartışmalarına yol açabiliyor
    • Hocalar da sonuçta insan
      Eğer AI’a $5 verip notlandırmayı yaptırarak 20 saati telefonda scroll yaparak geçirebileceklerse, muhtemelen onu seçerler