Öğrenci başına 42 cent ile AI kopyacılığını yakalamak: NYU profesörünün yapay zeka sözlü sınav deneyi
(aisparkup.com)NYU profesörünün yapay zeka sözlü sınav deneyi
Arka plan
- Yapay zeka çağında geleneksel ödev değerlendirmesinin sınırları: öğrenciler ödevleri yapay zekayla kusursuz yazsa da gerçek kavrayış eksikliği ortaya çıkıyor
- Panos Ipeirotis profesör (NYU Stern İşletme Fakültesi): yapay zekayla yapay zeka kopyacılığına karşı ters köşe bir deney
Deney özeti
- Ders: AI/ML ürün yönetimi
- Katılımcılar: 36 öğrenci
- Yöntem: ElevenLabs sesli yapay zeka ajanıyla sözlü sınav
- İçerik: öğrenci projeleriyle ilgili sorular + dersteki vaka çalışması soruları
- Süre: 9 gün, öğrenci başına ortalama 25 dakika
- Toplam maliyet: 15 dolar (öğrenci başına 42 cent)
- Claude: 8 dolar, Gemini: 2 dolar, OpenAI: 30 cent, ElevenLabs: 5 dolar
Maliyet karşılaştırması
- Yapay zeka sınavı: 15 dolar
- İnsan değerlendirme: 750 dolar (36 kişi × 25 dakika × 2 değerlendirici × saatlik 25 dolar)
- Avantaj: büyük ölçekli sınıflarda sözlü sınavı mümkün kılması
İlk sorunlar
- Ajanın tonu: sert ve kibirli algılandı (öğrenci şikayeti: "bağırdı")
- Davranış sorunları: aynı anda birden fazla soru sorma, tekrar istendiğinde yeniden kurgulama, çok hızlı araya girme
- Rastgelelik yanlılığı: "rastgele seç" talimatına rağmen belirli bir vakaya (Zillow %88) kayma
- Neden: LLM eğitim verilerinin insan önyargılarını yansıtması
Notlandırma yöntemi
- Yöntem: Andrej Karpathy'nin "Council of LLMs" yaklaşımının uygulanması
- Claude, Gemini, ChatGPT bağımsız değerlendirme → karşılıklı inceleme → düzeltme
- Sonuç: ilk puan farkları büyük olsa da (Gemini 17 puan, Claude 13.4 puan), inceleme sonrası %60'ı 1 puan içinde yakınsadı
- Geri bildirim kalitesi: yapay zeka insanlardan daha iyiydi (yapılandırılmış özet + doğrudan alıntılar)
Bulgu ve gözlemler
- Konuya göre farklar: "deneyler" konusu zayıf kaldı (ortalama 1.94/4 puan) → profesör bunu öğretim yöntemi sorunu olarak kabul etti (A/B testine yeterince ağırlık verilmemesi)
- Sınav süresi ve not ilişkisi: korelasyon yok (en kısa 9 dakikalık sınav en yüksek puanı aldı, en uzun 64 dakikalık sınav ortalama kaldı)
Öğrenci değerlendirmesi
- Yapay zeka formatını tercih edenler: %13 (insanı tercih edenlerin yarısı)
- Stres: %83 daha yüksek
- Adillik: %70'i gerçek kavrayışı ölçtüğüne katıldı (en yüksek puanlanan madde)
Sonuç
- Yapay zeka sözlü sınavı: ölçeklenebilir, ucuz ve adil
- Avantaj: sorular her seferinde yeniden üretildiği için sızıntı sorunu yok, pratik yapılabiliyor
- İroni: yapay zeka kopyacılığına yapay zeka çözümü
- Eğitimde değerlendirme biçiminin değişebileceğine işaret ederken sınırlarını da ortaya koyuyor
Henüz yorum yok.