AI MVP'nin ötesi: Gerçekten gerekenler

winterjung · 2025-04-03T12:56:26+09:00

AI ürünü geliştiren şirketlerin çoğu deney aşamasına sıkışmış durumda ve güvenilir sistemler ile araçlardan yoksun Bizim vakamız Bu yılın başında LLM modelini gpt-4o-2024-08-06 sürümünden gpt-4o-2024-11-20 sürümüne güncelledik Kritik prompt testlerinin geçme oranı önceki %100'den %79'a düştü Buna karşılık Anthropic'in Sonnet 3.5 modeli %95 geçme oranı gösterdi Birçok yapay zeka şirketi tedarikçiler arasında geçişi fazla kolay anlatıyor Bu, yalnızca yapay zekayı test etmekten daha fazlası Model performansını ölçmek ve model değişikliklerinin nasıl bir etki yarattığını nicel olarak değerlendirmek için test altyapısı kurmak o kadar da basit değil Nicel ölçüm için bizim kurduklarımız En az 30'dan fazla benzersiz test senaryosu Promptun beklenen çıktısıyla gerçek çıktısını karşılaştıran kod Test runner'ın kendisi Testleri CI içinde makul maliyetle çalıştırabilmeye yönelik strateji Çoğu ekibin düştüğü AI MVP tuzağı aşama. Aldatıcı MVP: Sadece birkaç günde tamamlanmış gibi görünen bir demo ortaya çıkar. Ancak kısa süre sonra temel hatalar yapmaya başlar aşama. ±0: Bunu iyileştirmeye çalışırsınız, ama sistem giderek daha karmaşık hale gelir ve öngörülemez olur. Şirketlerin %90'ının büyük bölümü bu aşamadadır aşama. Bilim: Bu noktada değerlendirme testlerine, observability araçlarına vb. ihtiyaç olduğunu fark eder ve bunları oluşturmaya başlarsınız aşama. Gerçekten çalışır: Nihayet sürekli izleme, kapsamlı değerlendirme test setleri ve hızlı analiz araçlarına sahip olursunuz Bunların hiçbiri kolay ya da basit değil; hepsi zor işler Birçok şirket kaotik MVP aşamasında kalıyor ve piyasaya sürdüğü AI özelliklerinin performansını bile tam olarak anlamıyor "İhtiyacınız olan tek şey X" diyerek AI ürünü satmak, gerçeği fazlasıyla basitleştirmektir Birisi çok sağlayıcılı bir AI stratejisi kurduğunu söylüyorsa, bunu nasıl ölçtüğünü ve değerlendirdiğini sorun

(blog.lawrencejones.dev)

16 puan yazan winterjung 2025-04-03 | Henüz yorum yok. | WhatsApp'ta paylaş

AI ürünü geliştiren şirketlerin çoğu deney aşamasına sıkışmış durumda ve güvenilir sistemler ile araçlardan yoksun
Bizim vakamız
- Bu yılın başında LLM modelini gpt-4o-2024-08-06 sürümünden gpt-4o-2024-11-20 sürümüne güncelledik
- Kritik prompt testlerinin geçme oranı önceki %100'den %79'a düştü
- Buna karşılık Anthropic'in Sonnet 3.5 modeli %95 geçme oranı gösterdi
Birçok yapay zeka şirketi tedarikçiler arasında geçişi fazla kolay anlatıyor
- Bu, yalnızca yapay zekayı test etmekten daha fazlası
- Model performansını ölçmek ve model değişikliklerinin nasıl bir etki yarattığını nicel olarak değerlendirmek için test altyapısı kurmak o kadar da basit değil
Nicel ölçüm için bizim kurduklarımız
- En az 30'dan fazla benzersiz test senaryosu
- Promptun beklenen çıktısıyla gerçek çıktısını karşılaştıran kod
- Test runner'ın kendisi
- Testleri CI içinde makul maliyetle çalıştırabilmeye yönelik strateji
Reklam
Çoğu ekibin düştüğü AI MVP tuzağı
- 1. aşama. Aldatıcı MVP: Sadece birkaç günde tamamlanmış gibi görünen bir demo ortaya çıkar. Ancak kısa süre sonra temel hatalar yapmaya başlar
- 1. aşama. ±0: Bunu iyileştirmeye çalışırsınız, ama sistem giderek daha karmaşık hale gelir ve öngörülemez olur. Şirketlerin %90'ının büyük bölümü bu aşamadadır
- 1. aşama. Bilim: Bu noktada değerlendirme testlerine, observability araçlarına vb. ihtiyaç olduğunu fark eder ve bunları oluşturmaya başlarsınız
- 1. aşama. Gerçekten çalışır: Nihayet sürekli izleme, kapsamlı değerlendirme test setleri ve hızlı analiz araçlarına sahip olursunuz
  Reklam
Bunların hiçbiri kolay ya da basit değil; hepsi zor işler
- Birçok şirket kaotik MVP aşamasında kalıyor ve piyasaya sürdüğü AI özelliklerinin performansını bile tam olarak anlamıyor
- "İhtiyacınız olan tek şey X" diyerek AI ürünü satmak, gerçeği fazlasıyla basitleştirmektir
- Birisi çok sağlayıcılı bir AI stratejisi kurduğunu söylüyorsa, bunu nasıl ölçtüğünü ve değerlendirdiğini sorun

AI MVP'nin ötesi: Gerçekten gerekenler

İlgili okumalar

Henüz yorum yok.