Bir LLM sistemi nasıl değerlendirilir

(thoughtworks.com)

19 puan yazan GN⁺ 2025-04-03 | 1 yorum | WhatsApp'ta paylaş

LLM (büyük dil modeli) tabanlı uygulamaların belirsiz çıktı özellikleri nedeniyle geleneksel test yöntemleriyle uygun şekilde değerlendirilmesi zordur
Bu nedenle LLM sistemlerinin performansını korumak ve iyileştirmek için özel değerlendirme yöntemleri (evals) zorunludur

eval neden önemlidir

Performans ölçütü oluşturma: model performansı için yön sağlar ve karşılaştırılabilir benchmark'lar belirler
Tutarlılık ve güvenilirlik sağlama: öngörülemeyen çıktıları önceden tespit edip kontrol eder
İyileştirme yönü sağlama: performansın düştüğü noktaları netleştirerek hedefe yönelik iyileştirme sağlar
Regresyon testi imkanı: değişikliklerden sonra da performansın korunup korunmadığını doğrulayarak istikrar sağlar

Dağıtım öncesi değerlendirmenin temel unsurları

Dağıtım öncesi değerlendirmenin neden önemli olduğu

Performansın erken ölçülmesini ve karşılaştırılmasını sağlar
Kod, prompt ve parametre değişikliklerinde regresyon sorunlarını önceden tespit etmeyi mümkün kılar

Değerlendirme nasıl yapılır

1. Ground Truth veri seti oluşturma

Uzmanlar tarafından hazırlanmış soru-cevap çiftlerinden oluşan bir veri seti gerekir
Gerçek kullanıcı soru türlerini yansıtan çeşitli senaryoların dahil edilmesi önemlidir

LLM Ground Truth üretebilir mi?

LLM yardımcı rol oynayabilir ancak tek başına üretmesi önerilmez
- Kullanıcı davranışını anlama konusunda yetersizlik
- Bağlama uygun soru ve cevaplar için insan incelemesi gerekir
- Alan uygunluğu ve kalite güvencesi için insan denetimi zorunludur

2. Değerlendirme metriklerini seçme

Answer relevancy: soruya doğrudan ve anlamlı bir yanıt verip vermediği
Coherence: yanıtın mantıksal akışı ve açıklığı
Contextual relevance: konuşma bağlamını ne kadar iyi dikkate aldığı
Responsibility: etik, zararlılık, önyargı gibi açılardan sorumlu çıktı üretip üretmediği

3. RAG değerlendirme metrikleri

Üretim metrikleri:
- Faithfulness: gerçeklere dayanıp dayanmadığı
- Answer relevancy: yanıtın uygunluğu
Arama metrikleri:
- Context precision: ilgili bilginin sinyal/gürültü oranı
- Context recall: doğru yanıt için gerekli bilgileri iyi getirip getirmediği

4. Göreve özel metrikler

Belirli görevlere uygun özelleştirilmiş değerlendirme metrikleri gerekir
- Örnek: özetlemede Fluency, Coherence, Consistency, Relevance

5. Puan hesaplama ve sistem ayarı

Her metrik için gerçek çıktılar Ground Truth ile karşılaştırılarak puan hesaplanır
Örnek:
- Recall düşükse: chunk size küçültme
- Precision düşükse: reranking eklemeyi değerlendirme
Değerlendirme kütüphanesi örnekleri: DeepEval, Relari-ai

LLM-as-Judge değerlendirme tekniği

GPT-4 gibi bir LLM kullanarak Ground Truth olmadan değerlendirme
Örnekler: G-eval framework'ü, Vicuna, QLoRA makaleleri
Dezavantajları:
- Bazı metrikler (ör. Context Recall) Ground Truth olmadan ölçülemez
- Doğruluk ve ayrıntı düzeyi açısından insan temelli değerlendirme üstündür
Sonuç: LLM-as-Judge + Ground Truth birlikte kullanımı idealdir

Dağıtım aşamasında değerlendirme nasıl entegre edilir

Değerlendirme otomasyonunu dağıtım pipeline'ına entegre edin
- Kod commit'i veya dağıtımdan önce otomatik testleri çalıştırın
- Örnek: Giskard ile zararlılık ve halüsinasyon tespiti için otomatik testler
Veri ön işleme ve toplama aşamalarına yönelik testler de dahil edilmelidir

Dağıtım sonrası değerlendirme ve veri flywheel'i

Operasyon sırasında izleme

Gerçek zamanlı giriş/çıkış takibi
Alan uzmanlarıyla düzenli değerlendirme oturumları
Kullanıcı geri bildirimi kanallarının oluşturulması

Veri flywheel stratejisi

Operasyon sırasında oluşan veri ve geri bildirimlerden yararlanarak sürekli iyileştirme döngüsü kurun
- Örnek: kullanıcı soru kalıplarını analiz etme → arama yöntemini iyileştirme
- Metriklere dayalı olarak prompt, inference parametreleri, arama yöntemi vb. ayarlanır
Kullanıcı davranışına ve başarısızlık senaryolarına göre metriklerin değiştirilmesi de gerekir

Sonuç: “Evals First” stratejisi güvenilir LLM ürünlerinin anahtarıdır

LLM uygulaması geliştirmenin en başından itibaren değerlendirme odaklı bir düşünce yapısı benimsenmelidir
Kilit nokta, doğru metrikleri ve ölçütleri erkenden tanımlamak ve bunları geliştirme ile dağıtımın referans noktası haline getirmektir
Değerlendirmeyi sonradan yapılan bir iş değil, temel geliştirme süreci olarak konumlandırmak, kullanıcı odaklı ve güvenilir yapay zeka sistemleri kurmayı mümkün kılar

1 yorum

winterjung 2025-04-03

Benim deneyimimde de öyleydi; https://blog.lawrencejones.dev/ai-mvp/ gibi başka örneklerde de görüldüğü üzere, en yeni model her zaman mutlaka daha iyi sonuçları garanti etmiyor. Modeli ya da prompt'u her ayarladığınızda veri seti üzerinden bir evaluation yapmak gerekiyor; LLM değerlendirmeyi desteklese bile, insanların LLM modeli için ground truth veri setini tek tek elle oluşturmak zorunda kalması biraz ironik gerçekten haha