16 puan yazan winterjung 2025-04-03 | Henüz yorum yok. | WhatsApp'ta paylaş
  • AI ürünü geliştiren şirketlerin çoğu deney aşamasına sıkışmış durumda ve güvenilir sistemler ile araçlardan yoksun
  • Bizim vakamız
    • Bu yılın başında LLM modelini gpt-4o-2024-08-06 sürümünden gpt-4o-2024-11-20 sürümüne güncelledik
    • Kritik prompt testlerinin geçme oranı önceki %100'den %79'a düştü
    • Buna karşılık Anthropic'in Sonnet 3.5 modeli %95 geçme oranı gösterdi
  • Birçok yapay zeka şirketi tedarikçiler arasında geçişi fazla kolay anlatıyor
    • Bu, yalnızca yapay zekayı test etmekten daha fazlası
    • Model performansını ölçmek ve model değişikliklerinin nasıl bir etki yarattığını nicel olarak değerlendirmek için test altyapısı kurmak o kadar da basit değil
  • Nicel ölçüm için bizim kurduklarımız
    • En az 30'dan fazla benzersiz test senaryosu
    • Promptun beklenen çıktısıyla gerçek çıktısını karşılaştıran kod
    • Test runner'ın kendisi
    • Testleri CI içinde makul maliyetle çalıştırabilmeye yönelik strateji
  • Çoğu ekibin düştüğü AI MVP tuzağı
      1. aşama. Aldatıcı MVP: Sadece birkaç günde tamamlanmış gibi görünen bir demo ortaya çıkar. Ancak kısa süre sonra temel hatalar yapmaya başlar
      1. aşama. ±0: Bunu iyileştirmeye çalışırsınız, ama sistem giderek daha karmaşık hale gelir ve öngörülemez olur. Şirketlerin %90'ının büyük bölümü bu aşamadadır
      1. aşama. Bilim: Bu noktada değerlendirme testlerine, observability araçlarına vb. ihtiyaç olduğunu fark eder ve bunları oluşturmaya başlarsınız
      1. aşama. Gerçekten çalışır: Nihayet sürekli izleme, kapsamlı değerlendirme test setleri ve hızlı analiz araçlarına sahip olursunuz
  • Bunların hiçbiri kolay ya da basit değil; hepsi zor işler
    • Birçok şirket kaotik MVP aşamasında kalıyor ve piyasaya sürdüğü AI özelliklerinin performansını bile tam olarak anlamıyor
    • "İhtiyacınız olan tek şey X" diyerek AI ürünü satmak, gerçeği fazlasıyla basitleştirmektir
    • Birisi çok sağlayıcılı bir AI stratejisi kurduğunu söylüyorsa, bunu nasıl ölçtüğünü ve değerlendirdiğini sorun

Henüz yorum yok.

Henüz yorum yok.