[ #1 Büyük üretici modeller (Large Generative Models) ]
LLM ve LMM ile sentetik veri üretimi
- Large Language Model (LLM) metin çıktısı üretirken, Large Multi-Modal Model (LMM) metin, kod, görsel gibi farklı biçimlerde sentetik veri üretebilir
- Özellikle gerçek verinin yetersiz olduğu, kişisel verilerin korunmasının hassas olduğu ya da toplama ve etiketleme maliyetinin yüksek olduğu alanlarda yaygın olarak kullanılır (örn. NLP, bilgisayarlı görü, otonom sürüş sistemleri geliştirme vb.)
- Sentetik veri genellikle gerçek veriyi tamamlamak veya ince ayar (fine-tuning) için kullanılır; tümüyle onun yerini almak için kullanılmaz
- Ne kadar gelişmiş olursa olsun yalnızca problem alanının yaklaşık bir temsilini üretebilir; aşırı bağımlılık, modelin sentetik veri üretim sürecindeki özelliklere aşırı uyum sağlaması riskini doğurur
- Sentetik veri üretim yöntemleri
- Öz iyileştirme (Self-improvement): Model yönergeleri, giriş bağlamını ve yanıtları üretir; geçersiz ya da mevcut veriye fazla benzeyen örnekler filtrelenir ve kalan veri, özgün modeli ince ayarlamak için kullanılır
- Distillation: Daha güçlü bir öğretmen modelin bilgisinin, daha az güçlü ama daha verimli bir öğrenci modele aktarılması süreci. Sentetik veri çoğu zaman kusurlu olsa da instruction-tuning sürecine etkili biçimde katkı sağlayabilir
- Microsoft, esas olarak başka LLM'ler tarafından üretilen sentetik verilerle eğitilen Phi adlı küçük model serisini yayımladı ve bu seri çoğu frontier olmayan modelden daha iyi performans gösterdi
- Hugging Face, Microsoft'un kullandığı sentetik eğitim veri kümesinin kürasyonuna dair bilgi eksikliğine yanıt olarak, bunu yeniden üretmeyi amaçlayan Cosmopedia'yı oluşturdu
LLM ile veri etiketleme ve veri kümesi birleştirme
- Güncel LLM'ler, metin veri kümelerini insan anotatörlerle aynı düzeyde hatta daha yüksek doğrulukla etiketleyebilir
- İnsan anotatörlerin aksine LLM'ler, yorgunluk veya önyargı olmaksızın büyük veri kümelerine aynı anotasyon ölçütlerini tutarlı biçimde uygulayabilir
- Segment Anything gibi büyük veri kümeleriyle eğitilmiş büyük üretici modeller, anlamsal bölütleme (semantic segmentation) gibi görevlerde geleneksel olarak kullanılan uzmanlaşmış üretici olmayan bilgisayarlı görü modellerinden zero-shot yeteneklerle daha iyi performans gösterebilir
- LLM'ler, farklı veri kaynaklarını birleştirerek birleşik veri kümeleri oluşturan veri kümesi dikişleme (Dataset Stitching) yoluyla kullanılabilir gerçek veri havuzunu genişletmek için de kullanılabilir
Değerlendirici olarak LLM
- İnsan geri bildiriminden pekiştirmeli öğrenme (RLHF), GPT-3'ü sohbet yoluyla kullanıcılarla etkileşimli diyaloğa optimize edilmiş çığır açıcı bir sisteme dönüştüren temel ince ayar tekniğiydi
- Artık geri bildirim sağlamak için insan yerine LLM kullanan, yapay zeka geri bildiriminden pekiştirmeli öğrenme (RLAIF) adlı bir yaklaşım ortaya çıktı
- RLAIF'in temel avantajı, insanı makineyle değiştirerek ölçeklenebilirlik ve maliyet tasarrufu sağlamasıdır
[ #2 Veri etiketleme platformları ]
- Başlangıçta Amazon Mechanical Turk gibi crowdsourcing ve iş dış kaynak kullanımı platformlarıyla, düşük maliyetli çevrimiçi iş gücü üzerinden veri etiketleme veya temizleme işleri yapılıyordu
- Son dönemde V7, Scale AI gibi otomatik veri etiketleme ve yönetim özellikleri sunan platformlar gelişti ve popülerlik kazandı
- Bu platformlar, uyumluluk ve kalite güvence önlemleriyle birlikte, büyük ölçekli veri ihtiyacı olan şirketlerin daha verimli ölçeklenmesini ve daha yüksek tutarlılık sağlamasını mümkün kılar
Platformlara göre özellikler ve yeni oyuncular
- V7, tıbbi görüntüleme gibi yüksek uzmanlık gerektiren işlere odaklanma eğilimindeyken, Scale otonom sürüş alanında büyüyüp savunma sektörüne genişledi
- Invisible gibi yeni oyuncular, LLM'ye özel iş akışları (örn. gözetimli ince ayar, RLHF, insan değerlendirmesi, red teaming vb.) için uzman iş gücü talebini karşılıyor
- Popüler veri etiketleme hizmetleri arasında CVAT, Dataloop, Invisible, Labelbox, Scale AI ve V7 bulunuyor
İnsan anotasyon verisinin kalitesini artırma yolları
- Birçok platform hâlâ belli ölçüde insan anotatörlere dayanıyor; bu nedenle yapay zekanın karmaşık, öznel ve toplumsal olarak ilgili alanlarda kullanımının genişlemesiyle birlikte çıktı kalitesini değerlendirmeye daha fazla emek gerekiyor
- Çoğunluk oyu, uyum oranı, olasılıksal modelleme yaklaşımları vb. kullanılarak birden çok değerlendirici girdisinden gerçek etiket tahmin edilebilir ve güvenilmez "spammer" değerlendiriciler tespit edilebilir
- Değerlendiriciler arasındaki sistematik uyumsuzlukları yakalayıp bunlardan yararlanarak eğitimi iyileştiren teknikler vardır (örn. disagreement deconvolution, çok anotatörlü modelleme vb.)
- Etki fonksiyonları, eğitim sırasında tahmin değişimlerinin izlenmesi vb. yöntemlerle yanlış etiketlenmiş veri noktaları tespit edilebilir
[ #3 Açık veri kümeleri ]
- 2016'dan sonra açık veri hareketi ve sektör, akademi, devlet arasındaki veri paylaşımının değerinin anlaşılması sayesinde açık veri kümeleri hızla arttı
- Açık veri kümeleri çoğu alanda mevcut olsa da özellikle bilgisayarlı görü, NLP, konuşma/ses işleme, robot kontrolü ve navigasyon alanlarında erişim daha yüksektir
- Bu gelişim, topluluk çabalarıyla (örn. Hugging Face, PyTorch, TensorFlow, Kaggle vb.) büyük şirketlerin büyük ölçekli veri kümelerini açması sayesinde gerçekleşti
Açık veri kümelerini kullanırken dikkat edilmesi gerekenler
- Ücretsiz olmaları ve benchmarking'e yardımcı olmaları avantaj olsa da bazı dikkat noktaları vardır
- Hassas veya yoğun düzenlemeye tabi alanlarda açık veri kümeleri daha seyrek, daha eski ve daha küçük ölçekli olma eğilimindedir
- Açık verinin kalitesi ve güncelliği büyük ölçüde değişebilir; bu da hızlı değişen alanlarda alaka sorunlarına yol açabilir
- Aşırı kullanım, popüler veri kümelerine aşırı bağımlılık yaratarak modelin benchmark'larda iyi çalışıp gerçek uygulamalarda düşük performans vermesi gibi aşırı uyum riskini doğurur
Yararlı açık veri kümesi kaynakları
[ #4 Simülasyon ortamları ]
- Simülasyon ortamları, AI model veya ajanlarının kontrollü ortamlarda öğrenerek sentetik veri üretmesini ve gerçek dağıtımdan önce sistemlerin test edilmesini sağlar
- Gerçek veriyi tamamlamada ve gerçek hayatta karşılaşılması zor ya da maliyetli edge case'leri keşfetmede özellikle faydalıdır
- Bu yaklaşım, sistemlerin güvenli biçimde eğitilmesi ve gerçek dünyada ortaya çıkabilecek çok sayıdaki değişkenin hesaba katılması gereken robotik veya otonom araçlar gibi alanlarda özellikle popülerdir
Simülasyon ortamı kurarken dikkat edilmesi gerekenler
- Zengin ve doğru fizik modellemesi yapabilen 3D simülasyonları sıfırdan oluşturmak ve doğrulamak ciddi kaynak ve altyapı gerektirebilir
- NVIDIA, Omniverse adlı birleşik 3D grafik ve fizik tabanlı iş akışı platformunu temel alan simülasyon ortamları da içeren güçlü GPU hızlandırmalı robotik platformu ISAAC'i geliştirdi
- Maliyet yükünü azaltmak için açık kaynak simülasyon ortamlarından yararlanılabilir
- Epic Games'in Unreal Engine'i, yüksek doğrulukta grafikler, gerçekçi fizik simülasyonu ve esnek programlama arayüzleri sayesinde simülasyon ortamı kurmak için güçlü bir araç hâline geldi
Kullanım örnekleri ve açık kaynak ortamlar
- Applied Intuition: otonom sürüş sistemi geliştiricileri için simülasyon ve doğrulama çözümleri sunar
- Sereact: depolarda pick-and-pack otomasyonu için mekânsal ve fiziksel nüansları anlayabilen, simülasyon ortamı tabanlı yazılım geliştirir
- Wayve: birden çok 4D simülasyon ortamı oluşturan Birleşik Krallık merkezli otonom sürüş girişimi
- Otonom sürüş alanı: CARLA, LG SVL Simulator, AirSim vb.
- Robotik alanı: Gazebo, CoppeliaSim, PyBullet, MuJoCo vb.
[ #5 Web/kitap ve diğer kaynakların scraping ile toplanması ]
- Büyük miktarda metin, ses ve video scraping'i, foundation model geliştirmede temel unsurlardan biriydi
- Büyük şirketler kendi özel sistemlerini kullanırken, girişimler çeşitli hazır ve açık kaynak araçlardan yararlanabilir
- Apache Nutch gibi dağıtık crawling framework'leri, Puppeteer veya Selenium gibi headless browser'lar, Beautiful Soup gibi parsing kütüphaneleri, Luminati gibi proxy ve IP yönetimi hizmetleri ile ucuz ve etkili OCR teknolojileri gelişti
Veri kalitesi ile miktarı arasındaki trade-off
- Alan ve uygulamaya göre veri kalitesi ile miktarı arasındaki trade-off değişir
- Dil modelleri, yeterli miktar sağlandığında görece gürültülü ve kürasyonsuz verilerden bile etkili biçimde öğrenebilir
- Buna karşılık bilgisayarlı görüde, küçük ama yüksek kaliteli veri kümeleri görüntü dönüşümleriyle (örn. kırpma, döndürme, gürültü ekleme vb.) genişletilerek iyi sonuçlar elde edilebilir
Curriculum learning ve veri kümesi kürasyonu
- Curriculum learning, modele veriyi anlamlı bir sırayla sunan; basit örneklerden karmaşık örneklere ilerleyen bir öğrenme stratejisidir
- İnsanın öğrenme biçimini taklit ederek, modelin zor örneklere geçmeden önce iyi başlangıç parametreleri öğrenmesini sağlar ve verimliliği artırır
Örnekler
- Databricks'in yakın zamanda yayımladığı SOTA açık LLM'i DBRX, bunu kullanarak model kalitesini önemli ölçüde artırdı
- Sync Labs, nispeten düşük kaliteli ama büyük miktarda videoyu kullanarak, videolardaki dudak hareketlerini yeni sesle yeniden senkronize edebilen bir model eğitti
- Metalware, uzman ders kitaplarından taranan nispeten küçük bir görsel setini GPT-2 ile birleştirerek firmware mühendisleri için bir copilotu geliştirdi
[ #6 Telif hakkı sorunları ve lisanslama olasılığı ]
- 2016'dan sonra AI ekosisteminin olgunlaşması kurucular için olumlu oldu, ancak ek karmaşıklıklar da yarattı
- Foundation model sağlayıcılarının büyük ölçekli web scraping faaliyetleri nedeniyle medya şirketleri, yazarlar ve sanatçılar çeşitli telif hakkı davaları açıyor
- Bu davalar şu anda Avrupa ve ABD'deki mahkeme sistemlerinde sürüyor; hedefte büyük şirketler (örn. Meta, OpenAI) veya giderek daha yerleşik hâle gelen laboratuvarlar (örn. Midjourney, Stability) var
- Bu durum, girişimlerin veri toplama yöntemlerinde dikkatli olması gerektiğini vurgular
- Eğer şirketler davaları kaybederse, eğitim verilerindeki telif hakkıyla korunan materyalleri tespit edip üreticilere ödeme yapmaları veya bu çıktıları imha edip baştan başlamaları gerekebilir
- Buna paralel olarak bazı şirketler, medya kuruluşlarıyla ortaklık kurmak ya da içerik veya ses kullanımı için sanatçılara doğrudan ödeme yapmak gibi üretici dostu veri toplama stratejilerini proaktif biçimde ilerletiyor
Etik veri tedariki sertifikasyon sistemlerinin ortaya çıkışı
- Eski Stability yöneticileri ve diğer isimlerin öncülük ettiği, etik biçimde temin edilmiş eğitim verileri için sertifikasyon sistemleri ortaya çıkıyor
- Bu sertifikasyon sistemleri henüz erken aşamada olsa da ilgi çekici bir yaklaşım ve takip etmeye değer
Örnekler
- ElevenLabs: seslendirme sanatçılarına ödeme ve ses verisi ortaklıkları
- Google: Gemini eğitimi için Reddit verisinin kullanımına olanak tanıyan anlaşma
- OpenAI: DALL-E'yi Shutterstock'un görsel, video, müzik ve metadata kütüphanesiyle eğitmek için ortaklık ve Associated Press'in haber arşivi için lisans anlaşması
[ #7 Etiketlenmiş büyük veri kümelerine duyulan ihtiyacın azalması ]
- 2016'dan sonra denetimsiz öğrenme ve yarı denetimli öğrenme teknikleri büyük ilerleme kaydetti; bu da girişimlerin, geleneksel olarak zorunlu görülen büyük etiketli veri kümeleri olmadan güçlü modeller kurabilmesini sağladı
- Bu yaklaşımlar 2016 öncesinde de araştırmacılar tarafından biliniyordu, ancak son yıllarda erişilebilirlik, gelişmişlik ve pratiklik açısından ciddi biçimde iyileşti
- Denetimsiz öğrenme, verideki içsel istatistiksel örüntüleri ve yapıları öğrenmeye odaklanır; geleneksel olarak büyük veri kümelerini keşfetmede (örn. denetimsiz kümeleme) yararlıydı ve bugün LLM ön eğitiminin temelidir
- Yarı denetimli öğrenme, az miktarda etiketli veriyle birlikte büyük miktarda etiketsiz veri kullanır ve model performansını geliştirmede özellikle etkilidir
- Contrastive learning ve few-shot learning gibi teknikler bu yaklaşımları güçlendirebilir
- Contrastive Learning, benzer ve benzer olmayan veri noktalarını ayırt ederek modelin zengin temsiller öğrenmesini sağlar ve bilgisayarlı görü görevlerinde yararlıdır (örn. OpenAI'nin CLIP'i)
- Few-shot learning, modelin çok az sayıda örnekle yeni görevlere uyum sağlamasına yardımcı olur
- Orijinal scaling laws makalesi, daha büyük modellerin few-shot learning konusunda daha yetkin olduğunu gösterdi
- Denetimsiz ön eğitim daha fazla etiketsiz veri gerektirir, ancak bu aşama modele küçük üretici olmayan modellere kıyasla daha az etiketli örnekle aşağı akış görevlerini çözme yeteneği kazandırır
Sınırlamalar ve dikkat edilmesi gerekenler
- Etiketsiz veriyi kullanan modeller çoğu zaman daha karmaşık mimariler gerektirir
- Bu, etiketlemeye harcanacak maliyetin hesaplama maliyetine kaydırılması anlamına gelir
- Uygulaması ve ölçeklenmesi daha zor olduğu gibi, açıklanabilirliğinin düşük olması da karar sürecini anlamanın önemli olduğu hassas alanlarda dezavantaj yaratabilir
- Bu karmaşıklık daha fazla hesaplama kaynağı gerektirir ve çoğu zaman denetimli öğrenme yöntemlerine göre performans tavanı daha düşüktür
[ #8 Hâlâ erken olan alanlar ]
Veri pazaryerleri
- 2016'dan sonra veri toplamak, depolamak, işlemek ve paylaşmak daha kolay ve ucuz hâle geldikçe bazı veri pazaryerleri ortaya çıktı, ancak bu alan büyük ölçüde canlanmadı
- Datarade, Dawex, AWS Data Exchange, Snowflake gibi pazaryerleri ve platformlar; görsel, metin, ses ve video verilerini çeşitli genel kullanım senaryolarında kolay bulmayı sağladı, ancak bu daha çok müşterilerin verilerini burada barındırmayı seçmesine ek değer sunmaya yönelikti
- Bu pazaryerlerine ek olarak Appen, Scale AI, Invisible, Surge gibi şirketler, yetkin dış kaynak iş gücü aracılığıyla özel veri kümeleri oluşturma ve etiketleme hizmeti sunuyor
- Ancak uzmanlaşma ve özel verinin rekabet avantajı sağladığına dair uyarılar hâlâ geçerli; AI girişimlerinin bu pazaryerlerine büyük ölçüde dayandığına dair çok az kanıt var
- Başlangıçta kullanışlı olabilirler, ancak temizleme, özelleştirme, filtreleme ve alt örnekleme için yine de ciddi çaba gerekir
- Birçok girişim, kendi özel veri kümelerini sıfırdan kurmayı ve bunu rekabet avantajı olarak kullanmayı tercih ediyor
Oyunlaştırma
- Oyunlaştırma, crowdsourcing ve citizen science girişimleri bağlamında çeşitli şirket ve kuruluşlar tarafından veri toplama stratejisi olarak incelendi (örn. Folding@Home)
- Ancak birkaç örnek dışında oyunlaştırma görece niş bir alanda kaldı
- Yalnızca oyun benzeri rekabetten motive olan ve boş zamanı bulunan belirli bir kullanıcı alt kümesine hitap ettiği için katkıcı sayısı açısından görece düşük bir tavana sahiptir
- Motive kişiler arasında bile katkı sağlanan verinin kalitesi ve doğruluğu sorun olmaya devam eder; özellikle edge case'lerde ek doğrulama ve kontrol gerekir
Federated learning
- Google'ın 2016'da tanıttığı federated learning (FL), veriyi yerel ortamda tutarken birden çok dağıtık sunucu veya mobil cihaz üzerinde model eğitme vaadi sundu
- Teorik olarak bu, sağlık veya finans gibi hassas alanlarda çalışan girişimlerin, geleneksel gizlilik sorunlarından kaçınırken ortaklıklar yoluyla önemli eğitim verilerine erişmesini sağlayabilir
- Ancak FL'nin benimsenmesi; sorumluluk, veri sahipliği ve sınır ötesi veri aktarımı sorunları nedeniyle, özellikle bunun için tasarlanan hassas alanlarda sınırlı kaldı. Ayrıca model ve veri kümeleri karmaşıklaştıkça dağıtık öğrenme ve toplulaştırmayla ilgili hesaplama ve iletişim overhead'i ciddi bir darboğaz hâline geldi ve veri sahiplerinin değer önerisini garanti eden oldukça karmaşık bir teknolojiyi benimsemesi gerektiği algısı sürdü
[ ## Sonuç ]
- 2016'dan sonra kayda değer ilerlemeler yaşansa da veri toplama, girişimler için hâlâ sancılı bir alan olmaya devam ediyor
- Topluluğun ya da pazarın bu sorunu çözeceğine dair güçlü bir işaret yok
- Çoğu AI girişimi kuruluş aşamasında hâlâ veri toplama zorluklarıyla karşılaşacak, ancak bu aynı zamanda farklılaşma fırsatı olabilir
- Yaratıcı biçimde doğru temeli kurmak, hâlâ çok somut bir rekabet avantajı kaynağıdır
- Verinin kendisi asla bir moat olamaz
- Zaman içinde rakipler kendi verilerini elde etmeyi ya da aynı sonuca ulaşmak için daha verimli teknikler bulmayı başaracaktır
- Bunu, son 1 yılda küçük ve büyük modeller arasındaki performans farkının kademeli olarak daraldığı LLM değerlendirmelerinde açıkça görebiliriz
- Mükemmel veri toplama nihayetinde gereklidir, ama tek başına yeterli değildir
- Başarı için, güçlü bir ürün ve gerçek müşteri içgörüsüyle birlikte gereken unsurlardan biridir
1 yorum
Teşekkürler, muazzam bir bilgiymiş~