Ateşe ateşle karşılık vermek: Yapay zeka ses ajanlarıyla sözlü sınavları ölçeklendirmek

(behind-the-enemy-lines.com)

2 puan yazan GN⁺ 2026-01-05 | 1 yorum | WhatsApp'ta paylaş

Büyük dil modellerinin (LLM) yaygınlaşmasıyla mevcut ödev ve sınavlar öğrenme düzeyini ölçemez hale gelince, öğretim kadrosu ElevenLabs sesli yapay zekası ile gerçek zamanlı sözlü sınavları devreye alarak bunu denedi
Sınav, proje açıklaması ve vaka soruları olmak üzere iki bölümden oluştu; öğrencilerin karar gerekçelerini ve düşünme süreçlerini doğrudan yapay zekaya açıklaması gerekti
Claude·Gemini·ChatGPT adlı üç model, tutarlılığı ve geri bildirim kalitesini artırmak için müzakere temelli biçimde not verdi; bu süreç gerçek dersteki zayıf konuyu (deney tasarımı) da ortaya çıkardı
36 öğrenci 9 gün boyunca, ortalama 25’er dakika değerlendirildi ve öğrenci başına maliyet 0,42 dolar ile son derece düşük kaldı
Yapay zeka sözlü sınavları, anlayış odaklı değerlendirmeyi ölçeklenebilir hale getiren yeni bir sınav modeli olabilir

Sorunun fark edilmesi ve sözlü sınavın devreye alınma gerekçesi

Öğrenci ödevlerinin kalitesi anormal derecede yükselince yapay zekayla yazılmış olabileceği şüphesi doğdu; rastgele sorular sorulduğunda birçok öğrencinin kendi çalışmasını açıklayamadığı görüldü
LLM erişilebilirliği nedeniyle mevcut ödev ve sınavların güvenilirliği çökerken, gerçek zamanlı düşünme becerisini ölçebilen sözlü sınavlar bir alternatif olarak öne çıktı
Ancak sözlü sınavların büyük ölçekte yürütülememesi gibi bir sınırı vardı; bunu aşmak için sesli yapay zeka ajanları kullanıldı

ElevenLabs tabanlı sesli ajan yapısı

ElevenLabs Conversational AI kullanılarak konuşma tanıma, ses sentezi ve sıra yönetimi gibi karmaşık unsurlar tek bir yapıda birleştirildi
Dinamik değişkenlerle öğrenci adı ve proje bilgileri aktarıldı; iş akışı yapısıyla kimlik doğrulama, proje ve vaka sorgulama ajanları ayrıştırıldı
- Kimlik doğrulama ajanı: öğrenci kimliğini doğrulama
- Proje ajanı: gönderilen materyal üzerinden soru sorma
- Vaka ajanı: rastgele bir vaka seçip soru sorma
Birden çok küçük ajana bölerek konuşmanın raydan çıkması engellendi ve hata ayıklama kolaylaştırıldı

Sınavın yürütülmesi ve sayısal sonuçlar

Toplam 36 öğrenci, 9 gün boyunca, ortalama 25 dakika (en kısa 9 dakika, en uzun 64 dakika) değerlendirildi
Ortalama 65 mesaj alışverişi, toplam 15 dolar maliyet (öğrenci başına 0,42 dolar)
LLM notlandırma sonuçlarının %89’u 1 puan içinde örtüştü; en kısa sınav (9 dakika) en yüksek puanı (19/20) aldı
İnsan notlandırmasına kıyasla 50 katın üzerinde maliyet tasarrufu sağlandı; gerçek zamanlı değerlendirme, kayıt ve geri bildirim otomasyonu başarıldı

Yaşanan sorunlar ve iyileştirme adımları

Öğrencilerden ses tonunun baskılayıcı olduğu yönünde geri bildirim geldi → farklı sesler için A/B testleri planlanıyor
Soruların üst üste binmesi (stack) sorunu → “aynı anda tek soru” kuralı eklendi
Soru tekrarında anlamın değişmesi → “cümleyi aynen tekrar et” ifadesi açıkça belirtildi
Düşünme süresinin yetersizliği → bekleme süresi 10 saniyeye çıkarıldı
Vakanın rastgele seçilememesi → kod seviyesinde rastgele sayı eşlemesiyle çözüldü

LLM müzakereyle notlandırma (council grading)

Claude·Gemini·ChatGPT bağımsız olarak not verdi, ardından birbirlerinin değerlendirmelerini gözden geçirip düzeltti
İlk turda not uyumsuzluğu yüksekti, ancak ikinci tur müzakere sonrasında 1 puan içindeki uyum oranı %62’den %85’e yükseldi
Gemini ortalamada notları 2 puan aşağı çekti; Claude ile OpenAI arasında tutarlılık yüksekti
Deney tasarımı maddesinde not uyuşmazlığı en yüksekti; bunun öğrencilerin yanıtlarındaki belirsizlikten kaynaklandığı değerlendirildi
Yapay zeka notlandırması insanlardan daha katı ama adil bulundu; geri bildirimler ise somut ve eylem odaklı olarak öne çıktı

Eğitsel içgörüler ve teşhis

Konulara göre başarı analizi, deney tasarımında ortalama 1,94/4 ile en düşük performansı gösterdi
- 0 puan %8, 1 puan %19, 2 puan %42, 4 puan %0
Ders içinde A/B testinin yeterince açıklanmaması bunun nedeni olarak ortaya çıktı ve öğretim tarafında iyileştirme gereksinimini gösterdi
Sınav süresi ile puan arasında ilişki yoktu (r=-0.03); kısa ve net yanıtlar daha yüksek puanlarla ilişkilendirildi

Kopya önleme ve şeffaflık

Öğrenciler için web kamerası ve ses kaydı zorunlu tutuldu; böylece dışarıdan yardım alma ihtimali engellendi
Sınav yapısı ve soru türleri yayınlanmış kılavuzlarla işletildi ve soru sızdırma riski ortadan kaldırıldı
Öğrenciler aynı yapı üzerinde tekrar tekrar pratik yapabildi; bu da gerçek öğrenme etkisini güçlendirdi

Öğrenci tepkileri

Yalnızca %13’ü yapay zeka sözlü sınavını tercih etti, %57’si geleneksel yazılı sınavı tercih etti ve %83’ü daha fazla stres yaşadığını söyledi
Buna rağmen %70’i bunun gerçek anlayışı iyi ölçtüğünü kabul etti; yani değerlendirmeye duyulan güven yüksekti
İstenilen zaman ve yerde sınava girebilme esnekliği olumlu değerlendirildi
İyileştirme talepleri: daha düşük tempo, daha sakin bir ses, tek soru yaklaşımı

Gelecekteki iyileştirme planları

Hız ayarı ve ses çeşitliliği, öğrenci teslimlerine dayalı RAG sorguları, vakaların açık rastgele tohumlarla dağıtılması
LLM’ler arasında not uyuşmazlığı olduğunda insan incelemesini tetikleyen bir mekanizma eklenmesi
Erişilebilirliğin güçlendirilmesi: alıştırma modu, ek süre ve alternatif yöntemler sağlanması

Sonuç: Yapay zekayla ölçeklenebilen anlayış odaklı değerlendirme

Ödev ve yazılı sınav temelli ölçme, LLM çağında etkisini yitiriyor; gerçek zamanlı düşünme değerlendirmesine geçiş gerekiyor
Yapay zeka sözlü sınavları anlayış, muhakeme ve doğaçlama düşünmeyi ölçüyor ve büyük ölçekte uygulanabilen yeni bir değerlendirme biçimi sunuyor
Soru sızdırma riski olmadan tekrarlı pratik yoluyla öğrenmeyi güçlendirmek mümkün
“Fight fire with fire” — yapay zekanın yarattığı sorunu yine yapay zekayla çözmeye çalışan bir değerlendirme yeniliği

1 yorum

GN⁺ 2026-01-05

Hacker News görüşleri

Makalede sunulan verilerle sonuçların örtüşmediğini düşünüyorum
Öğrenciler AI ile konuştuktan sonra bile hâlâ yazılı sınavı tercih etmiş
Üniversiteler yüzlerce yıldır kopyayı önleyerek yazılı sınav yapıyordu; pandemi sonrası çevrimiçi değerlendirme gibi ‘köşeli tekerlekler’ benimsendi ama aslında yeniden yuvarlak tekerleğe dönmek daha iyi olurdu benzetmesini yapmak istiyorum
- Deney sonuçları açıkça iyi değilken yazarın bunu “büyük başarı” diye sunması şaşırtıcı
  LLM değerlendirmesinin doğruluğu da doğrulanmamış. Sonuçta, sanki önce sonuca karar verilip veriler ona uydurulmuş gibi
- Alıntılanan cümle bir sonuç değil, sadece bir iddia
  ‘Take-home sınavlar bitti’ demek apaçık bir gözlem, deneyin sonucu değil
  Artık tek başına bile kopya çekmek çok kolay
  Ayrıca her akademik alanın değerlendirme yöntemi farklı olmalı; bilgisayar mühendisliği gibi yeni alanlarda değerlendirme olgunluğu hâlâ yetersiz
  Son olarak, öğrencinin tercihi sınavın kalitesini ölçme kriteri değildir
- Öğrencilerin yazılı sınavı tercih etmesi bunun en iyi yöntem olduğu anlamına gelmez
  Gerçekte sık sık insanların önünde kendi karar verme gerekçelerini açıklamak gerekir
  Pandemi döneminde yüz yüze deneyimi azalan bir kuşağın konuşmaktan çekinmesini anlamak mümkün ama bu tür kaygıyı aşma pratiği aslında faydalı olabilir
- Çevrimiçi derslerde yazılı sınav zor
  Take-home sınavlarda kopya çekme olasılığı arttığı için, sözlü sınav kusursuz olmasa da daha iyi bir alternatif olabilir
- Öğrenciyle öğretmen arasındaki kopya-gözetim yarışı yüzlerce yıldır sürüyor
Eskiden bütün sınavlar AI’ın devreye girmesine hiç imkân bırakmıyordu
Kalemle el yazısıyla yazılır, gözetmenlerin izlediği spor salonlarında sınava girilirdi
Kopya çekmenin cezası okuldan atılmaktı ve binlerce öğrencinin yalnızca %1’i mezun oluyordu
Şimdi sınavları AI’a göre değiştirelim denince bu bana delilik gibi geliyor. Zaten bir çözüm vardı
- Öğrencilerin %99’unun kaldığı bir sistemi övünecek şey gibi sunmak doğru değil
  Sonuçta bu, bütün sorumluluğu öğrenciye yıkan bir yapıydı; sorun hocanın tembelliği ve aynı sınav sorularının yeniden kullanılmasıydı
  Gerçek çözüm her seferinde yeni sorular hazırlamak ve farklı tiplerde soru sormaktır
- C++ kodunu elle yazdırmanın gerçekten en iyi değerlendirme biçimi olup olmadığı şüpheli
  Bence okulun sağladığı geliştirme ortamına sahip bilgisayarlarda sınav yapmak daha iyi olur
- Sözlü sınavların kavrayışı ölçmede daha iyi olduğu da söyleniyor
  Eğer bu doğruysa, ölçeklenebilir bir sözlü sınav yöntemi bulmak anlamlı olur
- %99 kalma oranına inanmak zor. Böyle bir üniversite kapatılmalı
Ölçeklenebilirlik takıntısı gereksiz
Üniversitelerin parası var; hoca doğrudan kendi sözlü sınavını yapabilir
Almanya’da yüksek lisansta da sık sık sözlü sınav olduk ve iyi işliyordu
- Avrupa’da Matura ya da doktora tez savunması gibi sözlü sınavlar yaygındır
  AI’a dayanmak tembelliğin simgesi gibi geliyor
  AI tekrar eden işlerde iyi olabilir ama çatışmalı durumlarda güven vermiyor
Ben de lisans döneminde sözlü sınav oldum; hocanın tavrındaki değişim o kadar büyüktü ki gerilim aşırı yüksekti
AI’ın böyle bir duygusal baskı yaratıp yaratamayacağından emin değilim
Hatta ben daha çok AI’ın küçük hatalarına sinir oluyorum
- İtalya’da ilkokuldan üniversiteye kadar her sınavda sözlü bölüm vardır
  Ama ben böyle durumlarda donup kalıyor, hiçbir şey söyleyemiyorum. Gerçekten çok zor
Eskiden işe alım sürecinde take-home ödevi verirdik ama bazı adaylar teslim ettikleri kodu açıklayamıyordu
LLM’lerin ortaya çıkmasıyla birlikte bunu AI’a yazdırma cazibesi çok daha arttı
Oysa bizim değerlendirmemiz gereken şey adayın problem çözme becerisi ve iletişim yeteneği
LLM’e izin verilen mülakatlar sonunda “AI kullanma becerisi testi”ne dönüşüyor
Makaledeki yönteme katılmıyorum ama sorunun kendisi gayet gerçekçi
- “synthetic pronouns” ifadesi ilginç
Bir sonraki adım, sorulara sesle cevap veren AI yerine başka bir AI kullanmak olabilir
Sonunda yeniden insanı merkeze koymak gerekecek
- Zaten yalnızca teleprompter bile insanı kandırmaya yeter
  Yakında akıllı gözlükler, kemik iletimli mikrofonlar vb. ile işler daha da ustaca yapılacak
  Sonunda zararı görenler yalnızca dürüst ama sosyal kaygısı olan öğrenciler olacak
- Sınav alanı onlarca telefon kulübesiyle dolarsa, ofis bölmelerinden bile daha korkunç görünür
Dönem içinde gönüllü deneme sözlü sınavları yapmak iyi olabilir
Öğrenciler biçime alışır, ses tonuna da adapte olur
Yaklaşık 36 kişi için sözlü sınavın imkânsız denmesi şaşırtıcı
- Makalenin sonunda değinildiği gibi, AI her seferinde yeni sorular ürettiği için sızıntı kaygısı olmadan pratik yapılabilir
  Asıl gerçek öğrenme yöntemi de işte bu tekrar yoluyla öğrenmedir
- Bir asistan saat başına $25 alıyorsa, sözlü sınav fazlasıyla yapılabilir
  $25 iade alıp sınavı LLM’in yapmasını kesinlikle istemem
- Prag’daki Charles University’de 200’den fazla öğrenci de sözlü sınava girdi
- Bu, sözlü sınavın derinliğine ve sıklığına bağlı
  Öğrencilerin sadece bir kısmı örneklem olarak seçilirse bu aynı anda hem motivasyon hem de hayal kırıklığı yaratabilir
- Sonuçta fikir, para tasarrufu için sınavı chatbot’la değiştirmek
  En azından üst düzey öğrencilerle 10 dakikalık sözlü görüşmeler yapmak gayet mümkün
Bir AI ses uygulaması tarafından sorgulanma fikri bile korkunç
Bu yaklaşım sürecekse, belki de değerlendirmesiz bir eğitim modeli gerekecek
- Sonunda en gerçekçi çözüm yine el yazısıyla yapılan sınavlara dönmek olabilir
- Ben de yakın zamanda bir AI mülakatı yaptım; AI’a yalan söylerken suçluluk hissetmedim
  Bir insana asla söylemeyeceğim şeyleri rahatça söyledim
- Sınav tamamen ortadan kalkarsa öğrenme motivasyonu korunmaz
Ben tam da o blog yazısının yazarıyım
AI dersimizde sadece yeni bir şey denedik
Yazılı sınavı kaldırmaya çalışmıyoruz; sözlü sınavı ek bir araç olarak kullanıyoruz
Amaç, takım projesinde öğrencinin gerçekten kendi yaptığı işi anlayıp anlamadığını kontrol etmekti
Sözlü sınavda düşük not alan öğrencilerin, beklendiği gibi projeyi de daha az anladığı görüldü
36 kişi düzeyinde birebir görüşme mümkün ama 100’ü geçince zorlaşıyor
Her şeyden önemlisi, AI yorulmadığı için tutarlı değerlendirme sunduğunu gösteren araştırmalar vardı. Bu yüzden güvendim
- LLM kullanımına izin vermenin doğal olduğunu söyleyenlere katılmıyorum
  Bu, spor salonunda forklift kullanmak gibi bir şey
  MBA düzeyinde basit derslerde belki olabilir ama ince yargı gerektiren derslerde AI adil değil
  Böyle basit doğrulama sınavları için bence kioskta çoktan seçmeli test yapmak daha mantıklı
Bizim zamanımızda bütün sınavlar sözlüydü
Büyük sınavlar iki gün sürerdi ama hoca ve asistanlar yılda 6 oturum düzenlerdi
- Ben de fizik lisans ve yüksek lisansımda çoğunlukla sözlü sınav oldum ama doktora sürecinde bu kayboldu
  Nedenlerden biri adaletin kültürel olarak farklı yorumlanmasıydı
  Çeşitliliğin yüksek olduğu ortamlarda sözlü sınavlar önyargı tartışmalarına yol açabiliyor
- Hocalar da sonuçta insan
  Eğer AI’a $5 verip notlandırmayı yaptırarak 20 saati telefonda scroll yaparak geçirebileceklerse, muhtemelen onu seçerler

Ateşe ateşle karşılık vermek: Yapay zeka ses ajanlarıyla sözlü sınavları ölçeklendirmek

Sorunun fark edilmesi ve sözlü sınavın devreye alınma gerekçesi

ElevenLabs tabanlı sesli ajan yapısı

Sınavın yürütülmesi ve sayısal sonuçlar

Yaşanan sorunlar ve iyileştirme adımları

LLM müzakereyle notlandırma (council grading)

Eğitsel içgörüler ve teşhis

Kopya önleme ve şeffaflık

Öğrenci tepkileri

Gelecekteki iyileştirme planları

Sonuç: Yapay zekayla ölçeklenebilen anlayış odaklı değerlendirme

İlgili okumalar

1 yorum

Hacker News görüşleri