2024'te AI girişimleri için veri toplama stratejileri

(press.airstreet.com)

31 puan yazan xguru 2024-04-29 | 1 yorum | WhatsApp'ta paylaş

[ #1 Büyük üretici modeller (Large Generative Models) ]

LLM ve LMM ile sentetik veri üretimi

Large Language Model (LLM) metin çıktısı üretirken, Large Multi-Modal Model (LMM) metin, kod, görsel gibi farklı biçimlerde sentetik veri üretebilir
Özellikle gerçek verinin yetersiz olduğu, kişisel verilerin korunmasının hassas olduğu ya da toplama ve etiketleme maliyetinin yüksek olduğu alanlarda yaygın olarak kullanılır (örn. NLP, bilgisayarlı görü, otonom sürüş sistemleri geliştirme vb.)
Sentetik veri genellikle gerçek veriyi tamamlamak veya ince ayar (fine-tuning) için kullanılır; tümüyle onun yerini almak için kullanılmaz
Ne kadar gelişmiş olursa olsun yalnızca problem alanının yaklaşık bir temsilini üretebilir; aşırı bağımlılık, modelin sentetik veri üretim sürecindeki özelliklere aşırı uyum sağlaması riskini doğurur
Sentetik veri üretim yöntemleri
1. Öz iyileştirme (Self-improvement): Model yönergeleri, giriş bağlamını ve yanıtları üretir; geçersiz ya da mevcut veriye fazla benzeyen örnekler filtrelenir ve kalan veri, özgün modeli ince ayarlamak için kullanılır
2. Distillation: Daha güçlü bir öğretmen modelin bilgisinin, daha az güçlü ama daha verimli bir öğrenci modele aktarılması süreci. Sentetik veri çoğu zaman kusurlu olsa da instruction-tuning sürecine etkili biçimde katkı sağlayabilir
Microsoft, esas olarak başka LLM'ler tarafından üretilen sentetik verilerle eğitilen Phi adlı küçük model serisini yayımladı ve bu seri çoğu frontier olmayan modelden daha iyi performans gösterdi
Hugging Face, Microsoft'un kullandığı sentetik eğitim veri kümesinin kürasyonuna dair bilgi eksikliğine yanıt olarak, bunu yeniden üretmeyi amaçlayan Cosmopedia'yı oluşturdu

LLM ile veri etiketleme ve veri kümesi birleştirme

Güncel LLM'ler, metin veri kümelerini insan anotatörlerle aynı düzeyde hatta daha yüksek doğrulukla etiketleyebilir
İnsan anotatörlerin aksine LLM'ler, yorgunluk veya önyargı olmaksızın büyük veri kümelerine aynı anotasyon ölçütlerini tutarlı biçimde uygulayabilir
Segment Anything gibi büyük veri kümeleriyle eğitilmiş büyük üretici modeller, anlamsal bölütleme (semantic segmentation) gibi görevlerde geleneksel olarak kullanılan uzmanlaşmış üretici olmayan bilgisayarlı görü modellerinden zero-shot yeteneklerle daha iyi performans gösterebilir
LLM'ler, farklı veri kaynaklarını birleştirerek birleşik veri kümeleri oluşturan veri kümesi dikişleme (Dataset Stitching) yoluyla kullanılabilir gerçek veri havuzunu genişletmek için de kullanılabilir

Değerlendirici olarak LLM

İnsan geri bildiriminden pekiştirmeli öğrenme (RLHF), GPT-3'ü sohbet yoluyla kullanıcılarla etkileşimli diyaloğa optimize edilmiş çığır açıcı bir sisteme dönüştüren temel ince ayar tekniğiydi
Artık geri bildirim sağlamak için insan yerine LLM kullanan, yapay zeka geri bildiriminden pekiştirmeli öğrenme (RLAIF) adlı bir yaklaşım ortaya çıktı
RLAIF'in temel avantajı, insanı makineyle değiştirerek ölçeklenebilirlik ve maliyet tasarrufu sağlamasıdır

[ #2 Veri etiketleme platformları ]

Başlangıçta Amazon Mechanical Turk gibi crowdsourcing ve iş dış kaynak kullanımı platformlarıyla, düşük maliyetli çevrimiçi iş gücü üzerinden veri etiketleme veya temizleme işleri yapılıyordu
Son dönemde V7, Scale AI gibi otomatik veri etiketleme ve yönetim özellikleri sunan platformlar gelişti ve popülerlik kazandı
Bu platformlar, uyumluluk ve kalite güvence önlemleriyle birlikte, büyük ölçekli veri ihtiyacı olan şirketlerin daha verimli ölçeklenmesini ve daha yüksek tutarlılık sağlamasını mümkün kılar

Platformlara göre özellikler ve yeni oyuncular

V7, tıbbi görüntüleme gibi yüksek uzmanlık gerektiren işlere odaklanma eğilimindeyken, Scale otonom sürüş alanında büyüyüp savunma sektörüne genişledi
Invisible gibi yeni oyuncular, LLM'ye özel iş akışları (örn. gözetimli ince ayar, RLHF, insan değerlendirmesi, red teaming vb.) için uzman iş gücü talebini karşılıyor
Popüler veri etiketleme hizmetleri arasında CVAT, Dataloop, Invisible, Labelbox, Scale AI ve V7 bulunuyor

İnsan anotasyon verisinin kalitesini artırma yolları

Birçok platform hâlâ belli ölçüde insan anotatörlere dayanıyor; bu nedenle yapay zekanın karmaşık, öznel ve toplumsal olarak ilgili alanlarda kullanımının genişlemesiyle birlikte çıktı kalitesini değerlendirmeye daha fazla emek gerekiyor
Çoğunluk oyu, uyum oranı, olasılıksal modelleme yaklaşımları vb. kullanılarak birden çok değerlendirici girdisinden gerçek etiket tahmin edilebilir ve güvenilmez "spammer" değerlendiriciler tespit edilebilir
Değerlendiriciler arasındaki sistematik uyumsuzlukları yakalayıp bunlardan yararlanarak eğitimi iyileştiren teknikler vardır (örn. disagreement deconvolution, çok anotatörlü modelleme vb.)
Etki fonksiyonları, eğitim sırasında tahmin değişimlerinin izlenmesi vb. yöntemlerle yanlış etiketlenmiş veri noktaları tespit edilebilir

[ #3 Açık veri kümeleri ]

2016'dan sonra açık veri hareketi ve sektör, akademi, devlet arasındaki veri paylaşımının değerinin anlaşılması sayesinde açık veri kümeleri hızla arttı
Açık veri kümeleri çoğu alanda mevcut olsa da özellikle bilgisayarlı görü, NLP, konuşma/ses işleme, robot kontrolü ve navigasyon alanlarında erişim daha yüksektir
Bu gelişim, topluluk çabalarıyla (örn. Hugging Face, PyTorch, TensorFlow, Kaggle vb.) büyük şirketlerin büyük ölçekli veri kümelerini açması sayesinde gerçekleşti

Açık veri kümelerini kullanırken dikkat edilmesi gerekenler

Ücretsiz olmaları ve benchmarking'e yardımcı olmaları avantaj olsa da bazı dikkat noktaları vardır
Hassas veya yoğun düzenlemeye tabi alanlarda açık veri kümeleri daha seyrek, daha eski ve daha küçük ölçekli olma eğilimindedir
Açık verinin kalitesi ve güncelliği büyük ölçüde değişebilir; bu da hızlı değişen alanlarda alaka sorunlarına yol açabilir
Aşırı kullanım, popüler veri kümelerine aşırı bağımlılık yaratarak modelin benchmark'larda iyi çalışıp gerçek uygulamalarda düşük performans vermesi gibi aşırı uyum riskini doğurur

Yararlı açık veri kümesi kaynakları

Amazon, Google, Microsoft gibi büyük şirketler çeşitli açık veri merkezleri ve arama motorlarına sahiptir
Hugging Face, ilgili araçlarla birlikte kullanıma hazır bir veri kümesi merkezi oluşturdu
Kaggle'ın veri kümesi arama özelliği
VisualData: bilgisayarlı görü veri kümeleri için merkez
V7, 500'den fazla açık veri kümesi listesi yayımladı

[ #4 Simülasyon ortamları ]

Simülasyon ortamları, AI model veya ajanlarının kontrollü ortamlarda öğrenerek sentetik veri üretmesini ve gerçek dağıtımdan önce sistemlerin test edilmesini sağlar
Gerçek veriyi tamamlamada ve gerçek hayatta karşılaşılması zor ya da maliyetli edge case'leri keşfetmede özellikle faydalıdır
Bu yaklaşım, sistemlerin güvenli biçimde eğitilmesi ve gerçek dünyada ortaya çıkabilecek çok sayıdaki değişkenin hesaba katılması gereken robotik veya otonom araçlar gibi alanlarda özellikle popülerdir

Simülasyon ortamı kurarken dikkat edilmesi gerekenler

Zengin ve doğru fizik modellemesi yapabilen 3D simülasyonları sıfırdan oluşturmak ve doğrulamak ciddi kaynak ve altyapı gerektirebilir
NVIDIA, Omniverse adlı birleşik 3D grafik ve fizik tabanlı iş akışı platformunu temel alan simülasyon ortamları da içeren güçlü GPU hızlandırmalı robotik platformu ISAAC'i geliştirdi
Maliyet yükünü azaltmak için açık kaynak simülasyon ortamlarından yararlanılabilir
Epic Games'in Unreal Engine'i, yüksek doğrulukta grafikler, gerçekçi fizik simülasyonu ve esnek programlama arayüzleri sayesinde simülasyon ortamı kurmak için güçlü bir araç hâline geldi

Kullanım örnekleri ve açık kaynak ortamlar

Applied Intuition: otonom sürüş sistemi geliştiricileri için simülasyon ve doğrulama çözümleri sunar
Sereact: depolarda pick-and-pack otomasyonu için mekânsal ve fiziksel nüansları anlayabilen, simülasyon ortamı tabanlı yazılım geliştirir
Wayve: birden çok 4D simülasyon ortamı oluşturan Birleşik Krallık merkezli otonom sürüş girişimi
Otonom sürüş alanı: CARLA, LG SVL Simulator, AirSim vb.
Robotik alanı: Gazebo, CoppeliaSim, PyBullet, MuJoCo vb.

[ #5 Web/kitap ve diğer kaynakların scraping ile toplanması ]

Büyük miktarda metin, ses ve video scraping'i, foundation model geliştirmede temel unsurlardan biriydi
Büyük şirketler kendi özel sistemlerini kullanırken, girişimler çeşitli hazır ve açık kaynak araçlardan yararlanabilir
Apache Nutch gibi dağıtık crawling framework'leri, Puppeteer veya Selenium gibi headless browser'lar, Beautiful Soup gibi parsing kütüphaneleri, Luminati gibi proxy ve IP yönetimi hizmetleri ile ucuz ve etkili OCR teknolojileri gelişti

Veri kalitesi ile miktarı arasındaki trade-off

Alan ve uygulamaya göre veri kalitesi ile miktarı arasındaki trade-off değişir
Dil modelleri, yeterli miktar sağlandığında görece gürültülü ve kürasyonsuz verilerden bile etkili biçimde öğrenebilir
Buna karşılık bilgisayarlı görüde, küçük ama yüksek kaliteli veri kümeleri görüntü dönüşümleriyle (örn. kırpma, döndürme, gürültü ekleme vb.) genişletilerek iyi sonuçlar elde edilebilir

Curriculum learning ve veri kümesi kürasyonu

Curriculum learning, modele veriyi anlamlı bir sırayla sunan; basit örneklerden karmaşık örneklere ilerleyen bir öğrenme stratejisidir
İnsanın öğrenme biçimini taklit ederek, modelin zor örneklere geçmeden önce iyi başlangıç parametreleri öğrenmesini sağlar ve verimliliği artırır

Örnekler

Databricks'in yakın zamanda yayımladığı SOTA açık LLM'i DBRX, bunu kullanarak model kalitesini önemli ölçüde artırdı
Sync Labs, nispeten düşük kaliteli ama büyük miktarda videoyu kullanarak, videolardaki dudak hareketlerini yeni sesle yeniden senkronize edebilen bir model eğitti
Metalware, uzman ders kitaplarından taranan nispeten küçük bir görsel setini GPT-2 ile birleştirerek firmware mühendisleri için bir copilotu geliştirdi

[ #6 Telif hakkı sorunları ve lisanslama olasılığı ]

2016'dan sonra AI ekosisteminin olgunlaşması kurucular için olumlu oldu, ancak ek karmaşıklıklar da yarattı
Foundation model sağlayıcılarının büyük ölçekli web scraping faaliyetleri nedeniyle medya şirketleri, yazarlar ve sanatçılar çeşitli telif hakkı davaları açıyor
Bu davalar şu anda Avrupa ve ABD'deki mahkeme sistemlerinde sürüyor; hedefte büyük şirketler (örn. Meta, OpenAI) veya giderek daha yerleşik hâle gelen laboratuvarlar (örn. Midjourney, Stability) var
Bu durum, girişimlerin veri toplama yöntemlerinde dikkatli olması gerektiğini vurgular
Eğer şirketler davaları kaybederse, eğitim verilerindeki telif hakkıyla korunan materyalleri tespit edip üreticilere ödeme yapmaları veya bu çıktıları imha edip baştan başlamaları gerekebilir
Buna paralel olarak bazı şirketler, medya kuruluşlarıyla ortaklık kurmak ya da içerik veya ses kullanımı için sanatçılara doğrudan ödeme yapmak gibi üretici dostu veri toplama stratejilerini proaktif biçimde ilerletiyor

Etik veri tedariki sertifikasyon sistemlerinin ortaya çıkışı

Eski Stability yöneticileri ve diğer isimlerin öncülük ettiği, etik biçimde temin edilmiş eğitim verileri için sertifikasyon sistemleri ortaya çıkıyor
Bu sertifikasyon sistemleri henüz erken aşamada olsa da ilgi çekici bir yaklaşım ve takip etmeye değer

Örnekler

ElevenLabs: seslendirme sanatçılarına ödeme ve ses verisi ortaklıkları
Google: Gemini eğitimi için Reddit verisinin kullanımına olanak tanıyan anlaşma
OpenAI: DALL-E'yi Shutterstock'un görsel, video, müzik ve metadata kütüphanesiyle eğitmek için ortaklık ve Associated Press'in haber arşivi için lisans anlaşması

[ #7 Etiketlenmiş büyük veri kümelerine duyulan ihtiyacın azalması ]

2016'dan sonra denetimsiz öğrenme ve yarı denetimli öğrenme teknikleri büyük ilerleme kaydetti; bu da girişimlerin, geleneksel olarak zorunlu görülen büyük etiketli veri kümeleri olmadan güçlü modeller kurabilmesini sağladı
Bu yaklaşımlar 2016 öncesinde de araştırmacılar tarafından biliniyordu, ancak son yıllarda erişilebilirlik, gelişmişlik ve pratiklik açısından ciddi biçimde iyileşti
Denetimsiz öğrenme, verideki içsel istatistiksel örüntüleri ve yapıları öğrenmeye odaklanır; geleneksel olarak büyük veri kümelerini keşfetmede (örn. denetimsiz kümeleme) yararlıydı ve bugün LLM ön eğitiminin temelidir
Yarı denetimli öğrenme, az miktarda etiketli veriyle birlikte büyük miktarda etiketsiz veri kullanır ve model performansını geliştirmede özellikle etkilidir
Contrastive learning ve few-shot learning gibi teknikler bu yaklaşımları güçlendirebilir
- Contrastive Learning, benzer ve benzer olmayan veri noktalarını ayırt ederek modelin zengin temsiller öğrenmesini sağlar ve bilgisayarlı görü görevlerinde yararlıdır (örn. OpenAI'nin CLIP'i)
- Few-shot learning, modelin çok az sayıda örnekle yeni görevlere uyum sağlamasına yardımcı olur
Orijinal scaling laws makalesi, daha büyük modellerin few-shot learning konusunda daha yetkin olduğunu gösterdi
Denetimsiz ön eğitim daha fazla etiketsiz veri gerektirir, ancak bu aşama modele küçük üretici olmayan modellere kıyasla daha az etiketli örnekle aşağı akış görevlerini çözme yeteneği kazandırır

Sınırlamalar ve dikkat edilmesi gerekenler

Etiketsiz veriyi kullanan modeller çoğu zaman daha karmaşık mimariler gerektirir
Bu, etiketlemeye harcanacak maliyetin hesaplama maliyetine kaydırılması anlamına gelir
Uygulaması ve ölçeklenmesi daha zor olduğu gibi, açıklanabilirliğinin düşük olması da karar sürecini anlamanın önemli olduğu hassas alanlarda dezavantaj yaratabilir
Bu karmaşıklık daha fazla hesaplama kaynağı gerektirir ve çoğu zaman denetimli öğrenme yöntemlerine göre performans tavanı daha düşüktür

[ #8 Hâlâ erken olan alanlar ]

Veri pazaryerleri

2016'dan sonra veri toplamak, depolamak, işlemek ve paylaşmak daha kolay ve ucuz hâle geldikçe bazı veri pazaryerleri ortaya çıktı, ancak bu alan büyük ölçüde canlanmadı
Datarade, Dawex, AWS Data Exchange, Snowflake gibi pazaryerleri ve platformlar; görsel, metin, ses ve video verilerini çeşitli genel kullanım senaryolarında kolay bulmayı sağladı, ancak bu daha çok müşterilerin verilerini burada barındırmayı seçmesine ek değer sunmaya yönelikti
Bu pazaryerlerine ek olarak Appen, Scale AI, Invisible, Surge gibi şirketler, yetkin dış kaynak iş gücü aracılığıyla özel veri kümeleri oluşturma ve etiketleme hizmeti sunuyor
Ancak uzmanlaşma ve özel verinin rekabet avantajı sağladığına dair uyarılar hâlâ geçerli; AI girişimlerinin bu pazaryerlerine büyük ölçüde dayandığına dair çok az kanıt var
Başlangıçta kullanışlı olabilirler, ancak temizleme, özelleştirme, filtreleme ve alt örnekleme için yine de ciddi çaba gerekir
Birçok girişim, kendi özel veri kümelerini sıfırdan kurmayı ve bunu rekabet avantajı olarak kullanmayı tercih ediyor

Oyunlaştırma

Oyunlaştırma, crowdsourcing ve citizen science girişimleri bağlamında çeşitli şirket ve kuruluşlar tarafından veri toplama stratejisi olarak incelendi (örn. Folding@Home)
Ancak birkaç örnek dışında oyunlaştırma görece niş bir alanda kaldı
Yalnızca oyun benzeri rekabetten motive olan ve boş zamanı bulunan belirli bir kullanıcı alt kümesine hitap ettiği için katkıcı sayısı açısından görece düşük bir tavana sahiptir
Motive kişiler arasında bile katkı sağlanan verinin kalitesi ve doğruluğu sorun olmaya devam eder; özellikle edge case'lerde ek doğrulama ve kontrol gerekir

Federated learning

Google'ın 2016'da tanıttığı federated learning (FL), veriyi yerel ortamda tutarken birden çok dağıtık sunucu veya mobil cihaz üzerinde model eğitme vaadi sundu
Teorik olarak bu, sağlık veya finans gibi hassas alanlarda çalışan girişimlerin, geleneksel gizlilik sorunlarından kaçınırken ortaklıklar yoluyla önemli eğitim verilerine erişmesini sağlayabilir
Ancak FL'nin benimsenmesi; sorumluluk, veri sahipliği ve sınır ötesi veri aktarımı sorunları nedeniyle, özellikle bunun için tasarlanan hassas alanlarda sınırlı kaldı. Ayrıca model ve veri kümeleri karmaşıklaştıkça dağıtık öğrenme ve toplulaştırmayla ilgili hesaplama ve iletişim overhead'i ciddi bir darboğaz hâline geldi ve veri sahiplerinin değer önerisini garanti eden oldukça karmaşık bir teknolojiyi benimsemesi gerektiği algısı sürdü

[ ## Sonuç ]

2016'dan sonra kayda değer ilerlemeler yaşansa da veri toplama, girişimler için hâlâ sancılı bir alan olmaya devam ediyor
Topluluğun ya da pazarın bu sorunu çözeceğine dair güçlü bir işaret yok
Çoğu AI girişimi kuruluş aşamasında hâlâ veri toplama zorluklarıyla karşılaşacak, ancak bu aynı zamanda farklılaşma fırsatı olabilir
Yaratıcı biçimde doğru temeli kurmak, hâlâ çok somut bir rekabet avantajı kaynağıdır
Verinin kendisi asla bir moat olamaz
Zaman içinde rakipler kendi verilerini elde etmeyi ya da aynı sonuca ulaşmak için daha verimli teknikler bulmayı başaracaktır
Bunu, son 1 yılda küçük ve büyük modeller arasındaki performans farkının kademeli olarak daraldığı LLM değerlendirmelerinde açıkça görebiliriz
Mükemmel veri toplama nihayetinde gereklidir, ama tek başına yeterli değildir
Başarı için, güçlü bir ürün ve gerçek müşteri içgörüsüyle birlikte gereken unsurlardan biridir

1 yorum

thfvkfk 2024-04-29

Teşekkürler, muazzam bir bilgiymiş~

2024'te AI girişimleri için veri toplama stratejileri

[ #1 Büyük üretici modeller (Large Generative Models) ]

LLM ve LMM ile sentetik veri üretimi

LLM ile veri etiketleme ve veri kümesi birleştirme

Değerlendirici olarak LLM

[ #2 Veri etiketleme platformları ]

Platformlara göre özellikler ve yeni oyuncular

İnsan anotasyon verisinin kalitesini artırma yolları

[ #3 Açık veri kümeleri ]

Açık veri kümelerini kullanırken dikkat edilmesi gerekenler

Yararlı açık veri kümesi kaynakları

[ #4 Simülasyon ortamları ]

Simülasyon ortamı kurarken dikkat edilmesi gerekenler

Kullanım örnekleri ve açık kaynak ortamlar

[ #5 Web/kitap ve diğer kaynakların scraping ile toplanması ]

Veri kalitesi ile miktarı arasındaki trade-off

Curriculum learning ve veri kümesi kürasyonu

Örnekler

[ #6 Telif hakkı sorunları ve lisanslama olasılığı ]

Etik veri tedariki sertifikasyon sistemlerinin ortaya çıkışı

Örnekler

[ #7 Etiketlenmiş büyük veri kümelerine duyulan ihtiyacın azalması ]

Sınırlamalar ve dikkat edilmesi gerekenler

[ #8 Hâlâ erken olan alanlar ]

Veri pazaryerleri

Oyunlaştırma

Federated learning

[ ## Sonuç ]

İlgili okumalar

1 yorum