Apple’ın yeni cihaz içi ve sunucu tabanlı foundation modellerine giriş

(machinelearning.apple.com)

4 puan yazan GN⁺ 2024-06-11 | 1 yorum | WhatsApp'ta paylaş

Apple, 2024 WWDC’de iOS 18, iPadOS 18 ve macOS Sequoia’ya derinlemesine entegre edilen kişisel zeka sistemi Apple Intelligence’ı duyurdu
Apple Intelligence, kullanıcının günlük işlerine özelleştirilmiş çok sayıda üretken modelden oluşuyor ve mevcut etkinliğe anında uyum sağlayabiliyor
Yerleşik foundation modelleri; belge yazma/iyileştirme, bildirim özetleme/önceliklendirme, sohbetler için eğlenceli görseller üretme ve uygulamalar arası etkileşimi basitleştirme gibi kullanıcı deneyimleri için fine-tune edildi
2 model — yaklaşık 3 milyar parametreli cihaz içi dil modeli ve Private Cloud Compute üzerinden sunulan daha büyük sunucu tabanlı dil modeli — bu özel işleri verimli, doğru ve sorumlu biçimde yerine getirecek şekilde geliştirildi ve uygulandı
Bunlar; Xcode’da zeka inşa etmeye yönelik kodlama modeli ve Messages uygulamasında görsel ifadeyi destekleyen difüzyon modeli gibi, Apple tarafından geliştirilen daha geniş üretken model ailesinin bir parçası

Sorumlu yapay zeka geliştirmeye odaklanma

Apple Intelligence, her aşamada temel değerlere uygun olacak şekilde tasarlandı ve çığır açan gizlilik yenilikleri üzerine kuruldu
Apple, yapay zeka araçlarının ve bu araçların temelini oluşturan modellerin nasıl geliştirileceğini yönlendiren sorumlu yapay zeka ilkeleri oluşturdu:
1. Akıllı araçlarla kullanıcıyı güçlendirmek
2. Kullanıcıyı temsil etmek
3. Düşünceli biçimde tasarlamak
4. Gizliliği korumak
Bu ilkeler, Apple Intelligence’ı mümkün kılan mimarinin tamamına yansıtılmış durumda

Pre-Training

Foundation modelleri, Apple’ın 2023’te açık kaynak olarak yayımladığı AXLearn framework’ü ile eğitildi
JAX ve XLA üzerine kurulu olduğundan, çeşitli donanım ve bulut platformlarında verimli ve ölçeklenebilir eğitim mümkün
Veri, model, dizi uzunluğu gibi farklı boyutlarda eğitim ölçeklendirmesi sağlayan paralelleştirme tekniklerinin birleşimi kullanıldı
Modeller, lisanslı veriler ve herkese açık verilerle eğitildi. Web yayıncıları, veri kullanımını kontrol ederek web içeriklerinin Apple Intelligence eğitiminde kullanılmasını devre dışı bırakabiliyor
Kullanıcıların kişisel verileri veya etkileşimleri asla kullanılmıyor. PII kaldırma filtreleri, düşük kaliteli içerik filtreleme ve yüksek kaliteli belgeleri belirlemek için model tabanlı sınıflandırıcılar uygulandı

Post-Training

Veri kalitesinin model başarısı için kritik olduğu görüldüğünden hibrit veri stratejisi kullanıldı
Öğretmen komitesi ile reddetme örneklemeli fine-tuning algoritması ile mirror descent policy optimization ve leave-one-out advantage estimator kullanan bir RLHF algoritması geliştirildi
Bu iki algoritma, modelin komut izleme kalitesini önemli ölçüde iyileştirdi

Optimization

Yüksek performanslı üretken modeller geliştirmenin yanı sıra, cihaz içi ve özel bulutta hız ile verimliliği optimize etmek için çeşitli yenilikçi teknikler uygulandı
Hem cihaz içi model hem de sunucu modeli grouped-query attention kullanıyor
Bellek gereksinimlerini ve çıkarım maliyetini azaltmak için paylaşımlı giriş ve çıkış kelime dağarcığı embedding tabloları kullanıldı
Cihaz içi model 49K sözlük boyutu kullanırken, sunucu modeli ek diller ve teknik token’ları içerecek şekilde 100K sözlük boyutu kullanıyor
Cihaz içi çıkarım için low-bit palettization kullanıldı — sıkıştırılmamış modelle aynı doğruluğu elde etmek amacıyla karışık 2-bit ve 4-bit yapılandırma stratejisini (ağırlık başına ortalama 3,5 bit) birleştiren yeni bir LoRA adapter framework’ü geliştirildi
Talaria aracı kullanılarak her görev için bit oranı seçimine daha iyi rehberlik edildi
Aktivasyon ve embedding quantization’dan yararlanıldı, verimli bir KV cache güncelleme yöntemi geliştirildi
Bu optimizasyon setiyle iPhone 15 Pro’da prompt token başına yaklaşık 0,6 ms time-to-first-token gecikmesi ve saniyede 30 token üretim hızı elde edildi

Model Adaptation

Foundation modelleri, kullanıcının günlük etkinlikleri için fine-tune ediliyor ve yürütülen göreve göre dinamik olarak kendi uzmanlığını özelleştirebiliyor
Belirli görevler için modeli fine-tune etmek amacıyla, önceden eğitilmiş modelin çeşitli katmanlarına bağlanabilen küçük sinir ağı modülleri olan adapter’lar kullanılıyor
Yalnızca adapter katmanları fine-tune edildiğinden, temel ön eğitimli modelin özgün parametreleri değişmiyor ve genel bilgi korunurken, adapter katmanları belirli görev desteği için özelleştiriliyor

Performance and Evaluation

Kullanıcıların Apple ürünleri genelinde iletişim kurmasına, çalışmasına, kendini ifade etmesine ve işlerini halletmesine yardımcı olan üretken modeller sunmaya odaklanıldı
Modeller benchmark edilirken, kullanıcı deneyimiyle yüksek korelasyon gösterdiği belirlenen insan değerlendirmelerine odaklanıldı
Hem özellik bazlı adapter’lar hem de foundation modelleri için performans değerlendirmesi yapıldı

Özet adapter değerlendirme örneği:

E-posta ve bildirim özetlerine yönelik ürün gereksinimleri ince ama önemli şekillerde farklı olduğundan, bu özel gereksinimleri karşılamak için palettize edilmiş model üzerinde LoRA adapter’ları fine-tune edildi
Eğitim verisi, yalnızca yüksek kaliteli özetleri koruyan reddetme örnekleme stratejisiyle filtrelenmiş, daha büyük sunucu modelinin ürettiği sentetik özetlere dayanıyor
Ürün bazlı özet değerlendirmeleri, kullanım senaryosuna göre dikkatle örneklenmiş 750 yanıttan oluşan bir set ile yapıldı
Değerlendirme veri seti, ürün özelliğinin üretimde karşılaşmasının muhtemel olduğu çeşitli girdileri öne çıkarıyor ve farklı içerik türleri ile uzunluklarında tekil ve yığılmış belgelerin katmanlı bir karışımını içeriyor
Bir ürün özelliği olarak gerçek kullanım senaryolarını temsil eden veri setleri üzerinde performansı değerlendirmek önemli
Adapter’lı modelin, benzer modellere göre daha iyi özetler ürettiği görüldü

Human Satisfaction Score on Summarization Feature Benchmark

Veri tablosuna göre Apple’ın cihaz içi+adapter modeli, e-posta ve bildirim özetlerinde Phi-3-mini modeline kıyasla daha yüksek memnuniyet-iyi oranı ve daha düşük memnuniyet-kötü oranı gösteriyor. Adapter’lı model daha iyi özetler üretiyor
Apple’ın cihaz içi ve sunucu modelleri, farklı zorluk derecelerindeki gerçek prompt’lardan oluşan kapsamlı bir değerlendirme setiyle genel yetenekler açısından test edildi. Benzer boyuttaki açık kaynak ve ticari modellerle karşılaştırıldığında:
- Cihaz içi model (~3 milyar parametre), Phi-3-mini, Mistral-7B ve Gemma-7B gibi daha büyük modellerden daha iyi performans gösterdi
- Sunucu modeli, DBRX-Instruct, Mixtral-8x22B ve GPT-3.5-Turbo ile yarışabilecek düzeyde olurken son derece verimli kaldı
Zararlı içerik, hassas konular ve olgusallık açısından model performansını test etmek için çeşitli adversarial prompt setleri kullanıldı. Hem cihaz içi hem de sunucu modelleri, adversarial prompt’larla karşılaştıklarında dayanıklılık gösterdi ve açık kaynak ile ticari modellere göre daha düşük ihlal oranları elde etti
IFEval benchmark’ı kullanılarak benzer boyuttaki modellerle komut izleme yeteneği karşılaştırıldığında, Apple’ın cihaz içi ve sunucu modellerinin ayrıntılı yönergeleri aynı sınıftaki açık kaynak ve ticari modellere göre daha iyi izlediği görüldü
Modellerin yazma becerileri de çeşitli yazım yönergelerinden oluşan dahili özetleme ve yazım benchmark’larında değerlendirildi

Writing Benchmarks

Veri tablosuna göre Apple’ın cihaz içi ve sunucu modelleri, özetleme ve yazma görevlerinde karşılaştırılan modellerle rekabetçi derecede iyi performans gösterdi

Sonuç

WWDC24’te tanıtılan Apple foundation modelleri ve adapter’lar, iPhone, iPad ve Mac’e derinlemesine entegre edilen; dil, görsel, eylem ve kişisel bağlam genelinde güçlü yetenekler sunan yeni kişisel zeka sistemi Apple Intelligence’ın temelini oluşturuyor
Bunlar, kullanıcıların Apple ürünleri genelinde günlük etkinliklerini yerine getirmesine yardımcı olmak amacıyla geliştirildi; her aşamada sorumlu biçimde oluşturuldu ve Apple’ın temel değerleri tarafından yönlendirildi
Dil, difüzyon ve kodlama modellerini içeren daha geniş üretken model ailesine dair bilgilerin yakında paylaşılacağı belirtildi

1 yorum

GN⁺ 2024-06-11

Hacker News yorumu

Adapter kullanımı: Önceden eğitilmiş modelin farklı katmanlarına takılabilen küçük sinir ağı modülleri olan adapter’lar kullanılarak model, belirli görevler için ince ayar yapılıyor. Bu, uygulama geliştiricilerinin her donanım modeli için optimize edilmiş modeller kullanmasını mümkün kılıyor.
Beklenti: Henüz üçüncü taraf eğitim desteğine dair bir duyuru yok, ancak bunun planlanıyor olması bekleniyor. Yerel+özel ML’nin zorluğu, her uygulamanın büyük boyutlu ağırlıklara ihtiyaç duymasını gerektirmemek.
Apple’ın fırsatı: Apple’ın her çipe göre optimize edilmiş modeller sunma ve yeni kullanım senaryoları için yalnızca birkaç MB ağırlık gerektiren adapter’lar sağlama fırsatı var. Bu, model tarafında uygulama inceltmeye benziyor.
Geliştirici deneyimi: Temel model en güncel durumda olmasa bile geliştirici deneyimi harika ve tekrarlanabilir. Sunucu tarafı çok daha kolay ve yerel+özel yaklaşımın birçok kullanım senaryosunu kapsaması bekleniyor.
Adapter’ların rolü: Adapter’lar kullanılarak model belirli görevlere göre ince ayarlanıyor, bellek verimli şekilde yönetiliyor ve işletim sisteminin yanıt verebilirliği korunuyor. Adapter parametreleri 16 bit ile ifade ediliyor ve yaklaşık 300 milyon parametreli bir model için yaklaşık 10 MB bellek gerekiyor.
LoRA’lara benzerlik: Bu yaklaşım LoRA’lara benzer gibi geliyor.
Karşılaştırma grafiği: Makalenin ortasında diğer ilgili modellerle bir karşılaştırma grafiği yer alıyor. Sunucu tarafı model GPT-3.5’ten daha iyi, GPT-4’ten ise daha kötü. Ancak özellikle "çıktı zararlılığının insan değerlendirmesi" grafiği ilgi çekici.
Modelin temkinliliği: GPT’yi "seviye 3" hâline getirip, OpenAI’ın modelini kullanarak "bunu ChatGPT söyledi" ifadesini netleştirecek şekilde modeli daha temkinli yapıyor.
Sunucu modeli kullanma isteği: Bu iki sayfadaki içerik çok iyi görünüyor ve Apple yığını için optimize edilmiş bir bulut kurmak amacıyla sunucu modelini denemek istiyorum.
Bellek artışı beklentisi: Apple’ın tüm Mac’lerde taban belleği 8 GB’ın üzerine çıkaracağı umuluyor. 16 GB M4’ün varsayılan olmasını isterdim, ancak Apple’ın 12 GB sunup 16 GB seçeneği için ek ücret talep etmesi muhtemel.
Veri gizliliği: Apple, üçüncü taraf hizmetlere ne gönderdiğini net biçimde açıklamalı ve kullanıcı isterse bunu devre dışı bırakabilmeli. Çıkarımı cihaz üzerinde çalıştırmak ile veriyi OpenAI API’si üzerinden göndermek aynı şey değil.
Alan adı tercihi: machinelearning.apple.com kullanılmasını beğendim.
Optimizasyon sonucu: 3.5B ağırlığı kalite kaybı olmadan kullanabilmek, en ileri düzey optimizasyon sonuçlarından biri.
Çıktı zararlılığı değerlendirmesi: Mistral-7B’nin küçük modeller arasında yanlış pozitif reddi en aza indirmede en iyi olduğu görülüyor.
Pil ömrüne etkisi: Bu tür modellerin pil ömrünü nasıl etkilediğini merak ediyorum. iPhone 15 Pro’da PrivateLLM uygulamasını denediğimde, birkaç dakikalık kullanımın ardından pil seviyesi hızla düştü.

Apple’ın yeni cihaz içi ve sunucu tabanlı foundation modellerine giriş

Sorumlu yapay zeka geliştirmeye odaklanma

Pre-Training

Post-Training

Optimization

Model Adaptation

Performance and Evaluation

Human Satisfaction Score on Summarization Feature Benchmark

Writing Benchmarks

Sonuç

İlgili okumalar

1 yorum

Hacker News yorumu