Öğrenci başına 42 cent ile AI kopyacılığını yakalamak: NYU profesörünün yapay zeka sözlü sınav deneyi

(aisparkup.com)

11 puan yazan davespark 2026-01-08 | Henüz yorum yok. | WhatsApp'ta paylaş

NYU profesörünün yapay zeka sözlü sınav deneyi

Arka plan

Yapay zeka çağında geleneksel ödev değerlendirmesinin sınırları: öğrenciler ödevleri yapay zekayla kusursuz yazsa da gerçek kavrayış eksikliği ortaya çıkıyor
Panos Ipeirotis profesör (NYU Stern İşletme Fakültesi): yapay zekayla yapay zeka kopyacılığına karşı ters köşe bir deney

Deney özeti

Ders: AI/ML ürün yönetimi
Katılımcılar: 36 öğrenci
Yöntem: ElevenLabs sesli yapay zeka ajanıyla sözlü sınav
İçerik: öğrenci projeleriyle ilgili sorular + dersteki vaka çalışması soruları
Süre: 9 gün, öğrenci başına ortalama 25 dakika
Toplam maliyet: 15 dolar (öğrenci başına 42 cent)
- Claude: 8 dolar, Gemini: 2 dolar, OpenAI: 30 cent, ElevenLabs: 5 dolar

Maliyet karşılaştırması

Yapay zeka sınavı: 15 dolar
İnsan değerlendirme: 750 dolar (36 kişi × 25 dakika × 2 değerlendirici × saatlik 25 dolar)
Avantaj: büyük ölçekli sınıflarda sözlü sınavı mümkün kılması

İlk sorunlar

Ajanın tonu: sert ve kibirli algılandı (öğrenci şikayeti: "bağırdı")
Davranış sorunları: aynı anda birden fazla soru sorma, tekrar istendiğinde yeniden kurgulama, çok hızlı araya girme
Rastgelelik yanlılığı: "rastgele seç" talimatına rağmen belirli bir vakaya (Zillow %88) kayma
- Neden: LLM eğitim verilerinin insan önyargılarını yansıtması

Notlandırma yöntemi

Yöntem: Andrej Karpathy'nin "Council of LLMs" yaklaşımının uygulanması
- Claude, Gemini, ChatGPT bağımsız değerlendirme → karşılıklı inceleme → düzeltme
Sonuç: ilk puan farkları büyük olsa da (Gemini 17 puan, Claude 13.4 puan), inceleme sonrası %60'ı 1 puan içinde yakınsadı
Geri bildirim kalitesi: yapay zeka insanlardan daha iyiydi (yapılandırılmış özet + doğrudan alıntılar)

Bulgu ve gözlemler

Konuya göre farklar: "deneyler" konusu zayıf kaldı (ortalama 1.94/4 puan) → profesör bunu öğretim yöntemi sorunu olarak kabul etti (A/B testine yeterince ağırlık verilmemesi)
Sınav süresi ve not ilişkisi: korelasyon yok (en kısa 9 dakikalık sınav en yüksek puanı aldı, en uzun 64 dakikalık sınav ortalama kaldı)

Öğrenci değerlendirmesi

Sonuç

Yapay zeka sözlü sınavı: ölçeklenebilir, ucuz ve adil
Avantaj: sorular her seferinde yeniden üretildiği için sızıntı sorunu yok, pratik yapılabiliyor
İroni: yapay zeka kopyacılığına yapay zeka çözümü
Eğitimde değerlendirme biçiminin değişebileceğine işaret ederken sınırlarını da ortaya koyuyor

İlgili okumalar