19 puan yazan GN⁺ 2025-04-03 | 1 yorum | WhatsApp'ta paylaş
  • LLM (büyük dil modeli) tabanlı uygulamaların belirsiz çıktı özellikleri nedeniyle geleneksel test yöntemleriyle uygun şekilde değerlendirilmesi zordur
  • Bu nedenle LLM sistemlerinin performansını korumak ve iyileştirmek için özel değerlendirme yöntemleri (evals) zorunludur

eval neden önemlidir

  • Performans ölçütü oluşturma: model performansı için yön sağlar ve karşılaştırılabilir benchmark'lar belirler
  • Tutarlılık ve güvenilirlik sağlama: öngörülemeyen çıktıları önceden tespit edip kontrol eder
  • İyileştirme yönü sağlama: performansın düştüğü noktaları netleştirerek hedefe yönelik iyileştirme sağlar
  • Regresyon testi imkanı: değişikliklerden sonra da performansın korunup korunmadığını doğrulayarak istikrar sağlar

Dağıtım öncesi değerlendirmenin temel unsurları

Dağıtım öncesi değerlendirmenin neden önemli olduğu

  • Performansın erken ölçülmesini ve karşılaştırılmasını sağlar
  • Kod, prompt ve parametre değişikliklerinde regresyon sorunlarını önceden tespit etmeyi mümkün kılar

Değerlendirme nasıl yapılır

1. Ground Truth veri seti oluşturma

  • Uzmanlar tarafından hazırlanmış soru-cevap çiftlerinden oluşan bir veri seti gerekir
  • Gerçek kullanıcı soru türlerini yansıtan çeşitli senaryoların dahil edilmesi önemlidir
LLM Ground Truth üretebilir mi?
  • LLM yardımcı rol oynayabilir ancak tek başına üretmesi önerilmez
    • Kullanıcı davranışını anlama konusunda yetersizlik
    • Bağlama uygun soru ve cevaplar için insan incelemesi gerekir
    • Alan uygunluğu ve kalite güvencesi için insan denetimi zorunludur

2. Değerlendirme metriklerini seçme

  • Answer relevancy: soruya doğrudan ve anlamlı bir yanıt verip vermediği
  • Coherence: yanıtın mantıksal akışı ve açıklığı
  • Contextual relevance: konuşma bağlamını ne kadar iyi dikkate aldığı
  • Responsibility: etik, zararlılık, önyargı gibi açılardan sorumlu çıktı üretip üretmediği

3. RAG değerlendirme metrikleri

  • Üretim metrikleri:
    • Faithfulness: gerçeklere dayanıp dayanmadığı
    • Answer relevancy: yanıtın uygunluğu
  • Arama metrikleri:
    • Context precision: ilgili bilginin sinyal/gürültü oranı
    • Context recall: doğru yanıt için gerekli bilgileri iyi getirip getirmediği

4. Göreve özel metrikler

  • Belirli görevlere uygun özelleştirilmiş değerlendirme metrikleri gerekir
    • Örnek: özetlemede Fluency, Coherence, Consistency, Relevance

5. Puan hesaplama ve sistem ayarı

  • Her metrik için gerçek çıktılar Ground Truth ile karşılaştırılarak puan hesaplanır
  • Örnek:
    • Recall düşükse: chunk size küçültme
    • Precision düşükse: reranking eklemeyi değerlendirme
  • Değerlendirme kütüphanesi örnekleri: DeepEval, Relari-ai

LLM-as-Judge değerlendirme tekniği

  • GPT-4 gibi bir LLM kullanarak Ground Truth olmadan değerlendirme
  • Örnekler: G-eval framework'ü, Vicuna, QLoRA makaleleri
  • Dezavantajları:
    • Bazı metrikler (ör. Context Recall) Ground Truth olmadan ölçülemez
    • Doğruluk ve ayrıntı düzeyi açısından insan temelli değerlendirme üstündür
  • Sonuç: LLM-as-Judge + Ground Truth birlikte kullanımı idealdir

Dağıtım aşamasında değerlendirme nasıl entegre edilir

  • Değerlendirme otomasyonunu dağıtım pipeline'ına entegre edin
    • Kod commit'i veya dağıtımdan önce otomatik testleri çalıştırın
    • Örnek: Giskard ile zararlılık ve halüsinasyon tespiti için otomatik testler
  • Veri ön işleme ve toplama aşamalarına yönelik testler de dahil edilmelidir

Dağıtım sonrası değerlendirme ve veri flywheel'i

Operasyon sırasında izleme

  • Gerçek zamanlı giriş/çıkış takibi
  • Alan uzmanlarıyla düzenli değerlendirme oturumları
  • Kullanıcı geri bildirimi kanallarının oluşturulması

Veri flywheel stratejisi

  • Operasyon sırasında oluşan veri ve geri bildirimlerden yararlanarak sürekli iyileştirme döngüsü kurun
    • Örnek: kullanıcı soru kalıplarını analiz etme → arama yöntemini iyileştirme
    • Metriklere dayalı olarak prompt, inference parametreleri, arama yöntemi vb. ayarlanır
  • Kullanıcı davranışına ve başarısızlık senaryolarına göre metriklerin değiştirilmesi de gerekir

Sonuç: “Evals First” stratejisi güvenilir LLM ürünlerinin anahtarıdır

  • LLM uygulaması geliştirmenin en başından itibaren değerlendirme odaklı bir düşünce yapısı benimsenmelidir
  • Kilit nokta, doğru metrikleri ve ölçütleri erkenden tanımlamak ve bunları geliştirme ile dağıtımın referans noktası haline getirmektir
  • Değerlendirmeyi sonradan yapılan bir iş değil, temel geliştirme süreci olarak konumlandırmak, kullanıcı odaklı ve güvenilir yapay zeka sistemleri kurmayı mümkün kılar

1 yorum

 
winterjung 2025-04-03

Benim deneyimimde de öyleydi; https://blog.lawrencejones.dev/ai-mvp/ gibi başka örneklerde de görüldüğü üzere, en yeni model her zaman mutlaka daha iyi sonuçları garanti etmiyor. Modeli ya da prompt'u her ayarladığınızda veri seti üzerinden bir evaluation yapmak gerekiyor; LLM değerlendirmeyi desteklese bile, insanların LLM modeli için ground truth veri setini tek tek elle oluşturmak zorunda kalması biraz ironik gerçekten haha