- Birçok AI ekibi yalnızca araç seçimine odaklanıyor ve asıl önemli olan etki ölçümü ile yinelemeli öğrenmeyi gözden kaçırıyor
- Yazar, 30'dan fazla AI ürününün geliştirilmesine yardımcı olma deneyimine dayanarak, başarılı ekiplerin ortak uygulama biçimlerini anlatıyor
- Özünde mesele, ölçüm odaklı bir düşünce yapısı ve deney temelli bir yol haritası kurmak
1. En yaygın hata: hata analizini atlamak
- AI ekiplerinin çoğu mimari ya da framework tasarımına yoğunlaşıyor, ancak gerçekte etkiyi ölçmüyor
- Genel dashboard metrikleri faydalı olmuyor
- Anlamsız “gösteriş metriklerine” saplanmak
- Çok fazla metrik yüzünden ekibin odağının dağılması
- Hata analizi, ROI'si en yüksek faaliyet
- Gerçek konuşma loglarını incelemek
- Başarısızlık türlerini sınıflandırmak
- Bu sorunlara yönelik testler yazıp iyileşmeyi ölçmek
- NurtureBoss örneği:
- Tarih işleme hatasını çözme
- Doğruluğu %33'ten %95'e çıkarma
- Yukarıdan aşağıya (top-down) analizden çok aşağıdan yukarıya (bottom-up) analiz daha etkili
- Gerçek verilerden hareketle başarısızlık kalıplarını çıkarmak
- Basit bir pivot tabloyla bile büyük içgörüler elde edilebilir
2. En önemli AI yatırımı: basit bir veri görüntüleyici
- Ekibin gerçek AI çıktılarını kolayca görebilmesini sağlayan araç en kritik unsur
- Açık kaynak araçlardan çok, alana uygun özelleştirilmiş bir arayüz daha etkili
- NurtureBoss, kendi veri görüntüleyicisi sayesinde hızlı yinelemeli iyileştirmeler yapabiliyor
- İyi bir görüntüleyicinin özellikleri:
- Tüm bağlamı tek ekranda göstermek
- Geri bildirim toplamayı kolaylaştırmak
- Açık uçlu notlara izin vermek
- Hızlı filtreleme ve sıralama
- Kısayol tuşları desteğiyle kullanım kolaylığını artırmak
- FastHTML, MonsterUI gibi araçlarla birkaç saat içinde kurulabilir
- Basit bir spreadsheet ile başlamak da yeterli olabilir
3. Prompt yetkisini alan uzmanlarına vermek
- AI performansını iyileştirmek, aslında çoğu zaman AI'yi çok iyi bilmeyen uzmanlar liderlik ettiğinde daha etkili oluyor
- Prompt'lar İngilizce cümlelerdir, bu yüzden uzman olmayan kişiler de yazabilir
- Ürün arayüzünde “yönetici modu” olarak entegre bir prompt ortamı sunmak, yinelemeli öğrenme için ideal
- Alan uzmanlarıyla iletişim için ipuçları:
- Gereksiz teknik terimleri kaldırmak
- Örn: “RAG yaklaşımı” → “AI'nin soruyu yanıtlamak için bağlam edinmesi”
- Ekip içi iletişimde neden doğru dil kullanmanın önemli olduğu
4. Kullanıcı olmasa da mümkün: sentetik veriyle bootstrapping
- Kullanıcı verisi olmadan da AI değerlendirmesi yapılabilir
- LLM sentetik veri üretebilir
- Etkili sentetik veri için 3 boyut:
- İşlev (örn. emlak arama, rezervasyon vb.)
- Senaryo (örn. eşleşme olmaması, birden fazla eşleşme vb.)
- Persona (örn. ilk kez alım yapan biri, yatırımcı vb.)
- Gerçek bir emlak projesi örneği:
- Senaryolara göre DB oluşturup sentetik sorgular üretmek
- LLM'nin kullanıcı soruları üretip sistemi test etmesi
- Sentetik veri yazımı rehberi:
- Çeşitli örnekler üretmek
- Girdi verisi merkezli üretim yapmak
- Sistem kısıtlarını yansıtmak
- Test senaryolarının geçerliliğini doğrulamak
- Basit vakalardan başlayıp aşamalı olarak genişletmek
5. Değerlendirme sistemine güveni korumak
- Birçok ekip değerlendirme sistemi kuruyor, ama sonrasında güvensizlik yüzünden onu görmezden geliyor
- Değerlendirme ölçütlerinin zamanla kriter kayması (criteria drift) yaşaması yaygın bir durum
- Güveni korumak için yaklaşımlar:
- İkili değerlendirmeyi (pass/fail) tercih etmek: netlik ve tutarlılık sağlar
- Ayrıntılı critique eklemek: nitel açıklamalarla bağlam sağlamak
- Otomatik değerlendirme ile insan değerlendirmesi arasındaki uyumu ölçmek
- Örn: Honeycomb projesinde 3 yinelemeden sonra LLM değerlendirmesiyle %90'dan fazla uyum sağlandı
- Eugene Yan'ın AlignEval aracı kullanılabilir
- Ölçek büyütme stratejisi:
- İnsan değerlendirmesini tamamen kaldırmayın; bunun yerine bilgi yoğunluğu yüksek örneklere odaklanın
- Otomatik değerlendirmelerle insan yargısını düzenli olarak karşılaştırıp ölçütleri yeniden ayarlayın
6. Özellik odaklı değil, deney odaklı AI yol haritası
- Geleneksel “özellik odaklı yol haritası”, AI için uygun değil
- Hex'in eski AI sorumlusu Bryan Bischof'un “yetenek hunisi (capability funnel)” yaklaşımı öneriliyor
- Örn: sorgu asistanı hunisi
- Yalnızca sorgu sözdizimini doğru kurmak
- Hatasız çalıştırılabilmek
- İlgili sonuçlar döndürmek
- Niyetle eşleşmek
- Sorunu tamamen çözmek
- Eugene Yan'ın deney temelli zamanlama yönetimi:
- Veri olasılığını inceleme → teknik yapılabilirliği inceleme → prototip geliştirme → A/B testi
- Deney sonuçlarını yöneticilerle paylaşmak ve olasılık yoksa erken aşamada yön değiştirme kararı almak
- Başarısızlığı paylaşma kültürü oluşturmak:
- Ekip içinde “başarısızlık da bir çıktıdır” anlayışıyla paylaşmak
- Yineleme ve deneyi teşvik eden bir ortam kurmak
Sonuç ve temel ilkeler
- Başarılı AI ekipleri, karmaşık araçlardan çok ölçüm, yineleme ve öğrenmeye odaklanır
- Uygulanması gereken 6 ilke:
- Veriyi doğrudan inceleyin ve hata analizi yapın
- Basit ve verimli araçlar geliştirerek yinelemeli öğrenmeyi destekleyin
- Alan uzmanlarının katılımını teşvik edin ve onlara yetki verin
- Sentetik verilerle ilk değerlendirme sistemini bootstrapping yapın
- İkili değerlendirme + critique + uyum kontrolüyle güveni koruyun
- Yol haritasını özellik sayısına göre değil, deney sayısına göre yönetin
Henüz yorum yok.