11 puan yazan davespark 2026-01-08 | Henüz yorum yok. | WhatsApp'ta paylaş

NYU profesörünün yapay zeka sözlü sınav deneyi

Arka plan

  • Yapay zeka çağında geleneksel ödev değerlendirmesinin sınırları: öğrenciler ödevleri yapay zekayla kusursuz yazsa da gerçek kavrayış eksikliği ortaya çıkıyor
  • Panos Ipeirotis profesör (NYU Stern İşletme Fakültesi): yapay zekayla yapay zeka kopyacılığına karşı ters köşe bir deney

Deney özeti

  • Ders: AI/ML ürün yönetimi
  • Katılımcılar: 36 öğrenci
  • Yöntem: ElevenLabs sesli yapay zeka ajanıyla sözlü sınav
  • İçerik: öğrenci projeleriyle ilgili sorular + dersteki vaka çalışması soruları
  • Süre: 9 gün, öğrenci başına ortalama 25 dakika
  • Toplam maliyet: 15 dolar (öğrenci başına 42 cent)
    • Claude: 8 dolar, Gemini: 2 dolar, OpenAI: 30 cent, ElevenLabs: 5 dolar

Maliyet karşılaştırması

  • Yapay zeka sınavı: 15 dolar
  • İnsan değerlendirme: 750 dolar (36 kişi × 25 dakika × 2 değerlendirici × saatlik 25 dolar)
  • Avantaj: büyük ölçekli sınıflarda sözlü sınavı mümkün kılması

İlk sorunlar

  • Ajanın tonu: sert ve kibirli algılandı (öğrenci şikayeti: "bağırdı")
  • Davranış sorunları: aynı anda birden fazla soru sorma, tekrar istendiğinde yeniden kurgulama, çok hızlı araya girme
  • Rastgelelik yanlılığı: "rastgele seç" talimatına rağmen belirli bir vakaya (Zillow %88) kayma
    • Neden: LLM eğitim verilerinin insan önyargılarını yansıtması

Notlandırma yöntemi

  • Yöntem: Andrej Karpathy'nin "Council of LLMs" yaklaşımının uygulanması
    • Claude, Gemini, ChatGPT bağımsız değerlendirme → karşılıklı inceleme → düzeltme
  • Sonuç: ilk puan farkları büyük olsa da (Gemini 17 puan, Claude 13.4 puan), inceleme sonrası %60'ı 1 puan içinde yakınsadı
  • Geri bildirim kalitesi: yapay zeka insanlardan daha iyiydi (yapılandırılmış özet + doğrudan alıntılar)

Bulgu ve gözlemler

  • Konuya göre farklar: "deneyler" konusu zayıf kaldı (ortalama 1.94/4 puan) → profesör bunu öğretim yöntemi sorunu olarak kabul etti (A/B testine yeterince ağırlık verilmemesi)
  • Sınav süresi ve not ilişkisi: korelasyon yok (en kısa 9 dakikalık sınav en yüksek puanı aldı, en uzun 64 dakikalık sınav ortalama kaldı)

Öğrenci değerlendirmesi

  • Yapay zeka formatını tercih edenler: %13 (insanı tercih edenlerin yarısı)
  • Stres: %83 daha yüksek
  • Adillik: %70'i gerçek kavrayışı ölçtüğüne katıldı (en yüksek puanlanan madde)

Sonuç

  • Yapay zeka sözlü sınavı: ölçeklenebilir, ucuz ve adil
  • Avantaj: sorular her seferinde yeniden üretildiği için sızıntı sorunu yok, pratik yapılabiliyor
  • İroni: yapay zeka kopyacılığına yapay zeka çözümü
  • Eğitimde değerlendirme biçiminin değişebileceğine işaret ederken sınırlarını da ortaya koyuyor

Henüz yorum yok.

Henüz yorum yok.