12 puan yazan xguru 2023-10-17 | Henüz yorum yok. | WhatsApp'ta paylaş
  • "Veri yeni petroldür" son 10 yılın sloganlarından biriydi
    • Şirketler verinin ne kadar değerli olduğunu ya da ne kadar değerli olabileceğini fark etti
    • Şirketler hızla en güncel veri yığınına yatırım yaptı ve terabaytlarca veriyi veri ambarlarında depoladı
    • Veri bilimi ekiplerinin sayıları analiz etmesi ve bu analiz sonuçlarını ürün kararlarında kullanması gerekiyordu (veya bazı durumlarda öneri akışları gibi müşteriyle doğrudan temas eden özelliklerde)
    • Başarı örnekleri vardı, ancak birçok kuruluş uygulamada başarısız oldu
    • Bunun nedenleri arasında silo hâline gelmiş veriler (veya veri ekipleri), pahalı bulut veri ambarları ve kötü sorgular (şu anda azalıyor), ayrıca veriyi temiz bir duruma getirmek için ciddi operasyonel çalışma gerektiren düzenli veri hatlarının eksikliği vardı
  • Peki şimdi "üretken yapay zeka" kullanılsa bile veri hâlâ bir hendek mi?
  • Sentetik veri kümeleri eğitim ve çıkarım hatlarında azımsanmayacak bir paya sahip olduğunda verinin değeri artar mı, yoksa azalır mı?
  • Bir yandan, "yüksek kaliteli veri hâlâ önemli"
    • LLM iyileştirmelerine ilişkin ilginin büyük kısmı model ve veri kümesi boyutuna odaklanmış durumda
    • LLM'lerin, eğitildikleri verinin kalitesinden ciddi biçimde etkilenebileceğine dair ilk kanıtlar var
    • WizardLM, TinyStories, phi-1 bunun örnekleri
    • Benzer şekilde RLHF veri kümeleri de önemli
  • Öte yandan, çıktı biçimi ve özelleştirilmiş stil için yapılan ince ayarda "yaklaşık 100 veri noktası bile büyük iyileşme sağlıyor"
    • Databricks, Meta, Spark ve Audible'daki LLM araştırmacıları, ince ayar için gereken veri miktarına ilişkin ampirik analizler yaptı
    • Bu düzeydeki veriyi elle üretmek veya kürate etmek kolay
  • Model damıtma (model distillation) gerçektir ve basit şekilde uygulanabilir
    • LLM kullanarak sentetik veri üretip kendi LLM'inizi eğitebilir veya ince ayar yapabilirsiniz; bu sırada bilginin bir kısmı aktarılır
    • Bu, ham LLM'yi karşı tarafa açtığınız durumlarda sorun olabilir (iç kullanımda o kadar da sorun değildir), ancak özellikle benzersiz olmayan verilerin kolayca kopyalanabileceği anlamına gelir

Henüz yorum yok.

Henüz yorum yok.