- LLM (büyük dil modeli) tabanlı uygulamaların belirsiz çıktı özellikleri nedeniyle geleneksel test yöntemleriyle uygun şekilde değerlendirilmesi zordur
- Bu nedenle LLM sistemlerinin performansını korumak ve iyileştirmek için özel değerlendirme yöntemleri (evals) zorunludur
eval neden önemlidir
- Performans ölçütü oluşturma: model performansı için yön sağlar ve karşılaştırılabilir benchmark'lar belirler
- Tutarlılık ve güvenilirlik sağlama: öngörülemeyen çıktıları önceden tespit edip kontrol eder
- İyileştirme yönü sağlama: performansın düştüğü noktaları netleştirerek hedefe yönelik iyileştirme sağlar
- Regresyon testi imkanı: değişikliklerden sonra da performansın korunup korunmadığını doğrulayarak istikrar sağlar
Dağıtım öncesi değerlendirmenin temel unsurları
Dağıtım öncesi değerlendirmenin neden önemli olduğu
- Performansın erken ölçülmesini ve karşılaştırılmasını sağlar
- Kod, prompt ve parametre değişikliklerinde regresyon sorunlarını önceden tespit etmeyi mümkün kılar
Değerlendirme nasıl yapılır
1. Ground Truth veri seti oluşturma
- Uzmanlar tarafından hazırlanmış soru-cevap çiftlerinden oluşan bir veri seti gerekir
- Gerçek kullanıcı soru türlerini yansıtan çeşitli senaryoların dahil edilmesi önemlidir
LLM Ground Truth üretebilir mi?
- LLM yardımcı rol oynayabilir ancak tek başına üretmesi önerilmez
- Kullanıcı davranışını anlama konusunda yetersizlik
- Bağlama uygun soru ve cevaplar için insan incelemesi gerekir
- Alan uygunluğu ve kalite güvencesi için insan denetimi zorunludur
2. Değerlendirme metriklerini seçme
- Answer relevancy: soruya doğrudan ve anlamlı bir yanıt verip vermediği
- Coherence: yanıtın mantıksal akışı ve açıklığı
- Contextual relevance: konuşma bağlamını ne kadar iyi dikkate aldığı
- Responsibility: etik, zararlılık, önyargı gibi açılardan sorumlu çıktı üretip üretmediği
3. RAG değerlendirme metrikleri
- Üretim metrikleri:
- Faithfulness: gerçeklere dayanıp dayanmadığı
- Answer relevancy: yanıtın uygunluğu
- Arama metrikleri:
- Context precision: ilgili bilginin sinyal/gürültü oranı
- Context recall: doğru yanıt için gerekli bilgileri iyi getirip getirmediği
4. Göreve özel metrikler
- Belirli görevlere uygun özelleştirilmiş değerlendirme metrikleri gerekir
- Örnek: özetlemede Fluency, Coherence, Consistency, Relevance
5. Puan hesaplama ve sistem ayarı
- Her metrik için gerçek çıktılar Ground Truth ile karşılaştırılarak puan hesaplanır
- Örnek:
- Recall düşükse: chunk size küçültme
- Precision düşükse: reranking eklemeyi değerlendirme
- Değerlendirme kütüphanesi örnekleri: DeepEval, Relari-ai
LLM-as-Judge değerlendirme tekniği
- GPT-4 gibi bir LLM kullanarak Ground Truth olmadan değerlendirme
- Örnekler: G-eval framework'ü, Vicuna, QLoRA makaleleri
- Dezavantajları:
- Bazı metrikler (ör. Context Recall) Ground Truth olmadan ölçülemez
- Doğruluk ve ayrıntı düzeyi açısından insan temelli değerlendirme üstündür
- Sonuç: LLM-as-Judge + Ground Truth birlikte kullanımı idealdir
Dağıtım aşamasında değerlendirme nasıl entegre edilir
- Değerlendirme otomasyonunu dağıtım pipeline'ına entegre edin
- Kod commit'i veya dağıtımdan önce otomatik testleri çalıştırın
- Örnek: Giskard ile zararlılık ve halüsinasyon tespiti için otomatik testler
- Veri ön işleme ve toplama aşamalarına yönelik testler de dahil edilmelidir
Dağıtım sonrası değerlendirme ve veri flywheel'i
Operasyon sırasında izleme
- Gerçek zamanlı giriş/çıkış takibi
- Alan uzmanlarıyla düzenli değerlendirme oturumları
- Kullanıcı geri bildirimi kanallarının oluşturulması
Veri flywheel stratejisi
- Operasyon sırasında oluşan veri ve geri bildirimlerden yararlanarak sürekli iyileştirme döngüsü kurun
- Örnek: kullanıcı soru kalıplarını analiz etme → arama yöntemini iyileştirme
- Metriklere dayalı olarak prompt, inference parametreleri, arama yöntemi vb. ayarlanır
- Kullanıcı davranışına ve başarısızlık senaryolarına göre metriklerin değiştirilmesi de gerekir
Sonuç: “Evals First” stratejisi güvenilir LLM ürünlerinin anahtarıdır
- LLM uygulaması geliştirmenin en başından itibaren değerlendirme odaklı bir düşünce yapısı benimsenmelidir
- Kilit nokta, doğru metrikleri ve ölçütleri erkenden tanımlamak ve bunları geliştirme ile dağıtımın referans noktası haline getirmektir
- Değerlendirmeyi sonradan yapılan bir iş değil, temel geliştirme süreci olarak konumlandırmak, kullanıcı odaklı ve güvenilir yapay zeka sistemleri kurmayı mümkün kılar
1 yorum
Benim deneyimimde de öyleydi; https://blog.lawrencejones.dev/ai-mvp/ gibi başka örneklerde de görüldüğü üzere, en yeni model her zaman mutlaka daha iyi sonuçları garanti etmiyor. Modeli ya da prompt'u her ayarladığınızda veri seti üzerinden bir evaluation yapmak gerekiyor; LLM değerlendirmeyi desteklese bile, insanların LLM modeli için ground truth veri setini tek tek elle oluşturmak zorunda kalması biraz ironik gerçekten haha