- AI ürünü geliştiren şirketlerin çoğu deney aşamasına sıkışmış durumda ve güvenilir sistemler ile araçlardan yoksun
- Bizim vakamız
- Bu yılın başında LLM modelini
gpt-4o-2024-08-06 sürümünden gpt-4o-2024-11-20 sürümüne güncelledik
- Kritik prompt testlerinin geçme oranı önceki %100'den %79'a düştü
- Buna karşılık Anthropic'in Sonnet 3.5 modeli %95 geçme oranı gösterdi
- Birçok yapay zeka şirketi tedarikçiler arasında geçişi fazla kolay anlatıyor
- Bu, yalnızca yapay zekayı test etmekten daha fazlası
- Model performansını ölçmek ve model değişikliklerinin nasıl bir etki yarattığını nicel olarak değerlendirmek için test altyapısı kurmak o kadar da basit değil
- Nicel ölçüm için bizim kurduklarımız
- En az 30'dan fazla benzersiz test senaryosu
- Promptun beklenen çıktısıyla gerçek çıktısını karşılaştıran kod
- Test runner'ın kendisi
- Testleri CI içinde makul maliyetle çalıştırabilmeye yönelik strateji
- Çoğu ekibin düştüğü AI MVP tuzağı
-
- aşama. Aldatıcı MVP: Sadece birkaç günde tamamlanmış gibi görünen bir demo ortaya çıkar. Ancak kısa süre sonra temel hatalar yapmaya başlar
-
- aşama. ±0: Bunu iyileştirmeye çalışırsınız, ama sistem giderek daha karmaşık hale gelir ve öngörülemez olur. Şirketlerin %90'ının büyük bölümü bu aşamadadır
-
- aşama. Bilim: Bu noktada değerlendirme testlerine, observability araçlarına vb. ihtiyaç olduğunu fark eder ve bunları oluşturmaya başlarsınız
-
- aşama. Gerçekten çalışır: Nihayet sürekli izleme, kapsamlı değerlendirme test setleri ve hızlı analiz araçlarına sahip olursunuz
- Bunların hiçbiri kolay ya da basit değil; hepsi zor işler
- Birçok şirket kaotik MVP aşamasında kalıyor ve piyasaya sürdüğü AI özelliklerinin performansını bile tam olarak anlamıyor
- "İhtiyacınız olan tek şey X" diyerek AI ürünü satmak, gerçeği fazlasıyla basitleştirmektir
- Birisi çok sağlayıcılı bir AI stratejisi kurduğunu söylüyorsa, bunu nasıl ölçtüğünü ve değerlendirdiğini sorun
Henüz yorum yok.