4 puan yazan GN⁺ 2024-06-11 | 1 yorum | WhatsApp'ta paylaş
  • Apple, 2024 WWDC’de iOS 18, iPadOS 18 ve macOS Sequoia’ya derinlemesine entegre edilen kişisel zeka sistemi Apple Intelligence’ı duyurdu
  • Apple Intelligence, kullanıcının günlük işlerine özelleştirilmiş çok sayıda üretken modelden oluşuyor ve mevcut etkinliğe anında uyum sağlayabiliyor
  • Yerleşik foundation modelleri; belge yazma/iyileştirme, bildirim özetleme/önceliklendirme, sohbetler için eğlenceli görseller üretme ve uygulamalar arası etkileşimi basitleştirme gibi kullanıcı deneyimleri için fine-tune edildi
  • 2 model — yaklaşık 3 milyar parametreli cihaz içi dil modeli ve Private Cloud Compute üzerinden sunulan daha büyük sunucu tabanlı dil modeli — bu özel işleri verimli, doğru ve sorumlu biçimde yerine getirecek şekilde geliştirildi ve uygulandı
  • Bunlar; Xcode’da zeka inşa etmeye yönelik kodlama modeli ve Messages uygulamasında görsel ifadeyi destekleyen difüzyon modeli gibi, Apple tarafından geliştirilen daha geniş üretken model ailesinin bir parçası

Sorumlu yapay zeka geliştirmeye odaklanma

  • Apple Intelligence, her aşamada temel değerlere uygun olacak şekilde tasarlandı ve çığır açan gizlilik yenilikleri üzerine kuruldu
  • Apple, yapay zeka araçlarının ve bu araçların temelini oluşturan modellerin nasıl geliştirileceğini yönlendiren sorumlu yapay zeka ilkeleri oluşturdu:
    1. Akıllı araçlarla kullanıcıyı güçlendirmek
    2. Kullanıcıyı temsil etmek
    3. Düşünceli biçimde tasarlamak
    4. Gizliliği korumak
  • Bu ilkeler, Apple Intelligence’ı mümkün kılan mimarinin tamamına yansıtılmış durumda

Pre-Training

  • Foundation modelleri, Apple’ın 2023’te açık kaynak olarak yayımladığı AXLearn framework’ü ile eğitildi
  • JAX ve XLA üzerine kurulu olduğundan, çeşitli donanım ve bulut platformlarında verimli ve ölçeklenebilir eğitim mümkün
  • Veri, model, dizi uzunluğu gibi farklı boyutlarda eğitim ölçeklendirmesi sağlayan paralelleştirme tekniklerinin birleşimi kullanıldı
  • Modeller, lisanslı veriler ve herkese açık verilerle eğitildi. Web yayıncıları, veri kullanımını kontrol ederek web içeriklerinin Apple Intelligence eğitiminde kullanılmasını devre dışı bırakabiliyor
  • Kullanıcıların kişisel verileri veya etkileşimleri asla kullanılmıyor. PII kaldırma filtreleri, düşük kaliteli içerik filtreleme ve yüksek kaliteli belgeleri belirlemek için model tabanlı sınıflandırıcılar uygulandı

Post-Training

  • Veri kalitesinin model başarısı için kritik olduğu görüldüğünden hibrit veri stratejisi kullanıldı
  • Öğretmen komitesi ile reddetme örneklemeli fine-tuning algoritması ile mirror descent policy optimization ve leave-one-out advantage estimator kullanan bir RLHF algoritması geliştirildi
  • Bu iki algoritma, modelin komut izleme kalitesini önemli ölçüde iyileştirdi

Optimization

  • Yüksek performanslı üretken modeller geliştirmenin yanı sıra, cihaz içi ve özel bulutta hız ile verimliliği optimize etmek için çeşitli yenilikçi teknikler uygulandı
  • Hem cihaz içi model hem de sunucu modeli grouped-query attention kullanıyor
  • Bellek gereksinimlerini ve çıkarım maliyetini azaltmak için paylaşımlı giriş ve çıkış kelime dağarcığı embedding tabloları kullanıldı
  • Cihaz içi model 49K sözlük boyutu kullanırken, sunucu modeli ek diller ve teknik token’ları içerecek şekilde 100K sözlük boyutu kullanıyor
  • Cihaz içi çıkarım için low-bit palettization kullanıldı — sıkıştırılmamış modelle aynı doğruluğu elde etmek amacıyla karışık 2-bit ve 4-bit yapılandırma stratejisini (ağırlık başına ortalama 3,5 bit) birleştiren yeni bir LoRA adapter framework’ü geliştirildi
  • Talaria aracı kullanılarak her görev için bit oranı seçimine daha iyi rehberlik edildi
  • Aktivasyon ve embedding quantization’dan yararlanıldı, verimli bir KV cache güncelleme yöntemi geliştirildi
  • Bu optimizasyon setiyle iPhone 15 Pro’da prompt token başına yaklaşık 0,6 ms time-to-first-token gecikmesi ve saniyede 30 token üretim hızı elde edildi

Model Adaptation

  • Foundation modelleri, kullanıcının günlük etkinlikleri için fine-tune ediliyor ve yürütülen göreve göre dinamik olarak kendi uzmanlığını özelleştirebiliyor
  • Belirli görevler için modeli fine-tune etmek amacıyla, önceden eğitilmiş modelin çeşitli katmanlarına bağlanabilen küçük sinir ağı modülleri olan adapter’lar kullanılıyor
  • Yalnızca adapter katmanları fine-tune edildiğinden, temel ön eğitimli modelin özgün parametreleri değişmiyor ve genel bilgi korunurken, adapter katmanları belirli görev desteği için özelleştiriliyor

Performance and Evaluation

  • Kullanıcıların Apple ürünleri genelinde iletişim kurmasına, çalışmasına, kendini ifade etmesine ve işlerini halletmesine yardımcı olan üretken modeller sunmaya odaklanıldı
  • Modeller benchmark edilirken, kullanıcı deneyimiyle yüksek korelasyon gösterdiği belirlenen insan değerlendirmelerine odaklanıldı
  • Hem özellik bazlı adapter’lar hem de foundation modelleri için performans değerlendirmesi yapıldı

Özet adapter değerlendirme örneği:

  • E-posta ve bildirim özetlerine yönelik ürün gereksinimleri ince ama önemli şekillerde farklı olduğundan, bu özel gereksinimleri karşılamak için palettize edilmiş model üzerinde LoRA adapter’ları fine-tune edildi
  • Eğitim verisi, yalnızca yüksek kaliteli özetleri koruyan reddetme örnekleme stratejisiyle filtrelenmiş, daha büyük sunucu modelinin ürettiği sentetik özetlere dayanıyor
  • Ürün bazlı özet değerlendirmeleri, kullanım senaryosuna göre dikkatle örneklenmiş 750 yanıttan oluşan bir set ile yapıldı
  • Değerlendirme veri seti, ürün özelliğinin üretimde karşılaşmasının muhtemel olduğu çeşitli girdileri öne çıkarıyor ve farklı içerik türleri ile uzunluklarında tekil ve yığılmış belgelerin katmanlı bir karışımını içeriyor
  • Bir ürün özelliği olarak gerçek kullanım senaryolarını temsil eden veri setleri üzerinde performansı değerlendirmek önemli
  • Adapter’lı modelin, benzer modellere göre daha iyi özetler ürettiği görüldü

Human Satisfaction Score on Summarization Feature Benchmark

  • Veri tablosuna göre Apple’ın cihaz içi+adapter modeli, e-posta ve bildirim özetlerinde Phi-3-mini modeline kıyasla daha yüksek memnuniyet-iyi oranı ve daha düşük memnuniyet-kötü oranı gösteriyor. Adapter’lı model daha iyi özetler üretiyor
  • Apple’ın cihaz içi ve sunucu modelleri, farklı zorluk derecelerindeki gerçek prompt’lardan oluşan kapsamlı bir değerlendirme setiyle genel yetenekler açısından test edildi. Benzer boyuttaki açık kaynak ve ticari modellerle karşılaştırıldığında:
    • Cihaz içi model (~3 milyar parametre), Phi-3-mini, Mistral-7B ve Gemma-7B gibi daha büyük modellerden daha iyi performans gösterdi
    • Sunucu modeli, DBRX-Instruct, Mixtral-8x22B ve GPT-3.5-Turbo ile yarışabilecek düzeyde olurken son derece verimli kaldı
  • Zararlı içerik, hassas konular ve olgusallık açısından model performansını test etmek için çeşitli adversarial prompt setleri kullanıldı. Hem cihaz içi hem de sunucu modelleri, adversarial prompt’larla karşılaştıklarında dayanıklılık gösterdi ve açık kaynak ile ticari modellere göre daha düşük ihlal oranları elde etti
  • IFEval benchmark’ı kullanılarak benzer boyuttaki modellerle komut izleme yeteneği karşılaştırıldığında, Apple’ın cihaz içi ve sunucu modellerinin ayrıntılı yönergeleri aynı sınıftaki açık kaynak ve ticari modellere göre daha iyi izlediği görüldü
  • Modellerin yazma becerileri de çeşitli yazım yönergelerinden oluşan dahili özetleme ve yazım benchmark’larında değerlendirildi

Writing Benchmarks

  • Veri tablosuna göre Apple’ın cihaz içi ve sunucu modelleri, özetleme ve yazma görevlerinde karşılaştırılan modellerle rekabetçi derecede iyi performans gösterdi

Sonuç

  • WWDC24’te tanıtılan Apple foundation modelleri ve adapter’lar, iPhone, iPad ve Mac’e derinlemesine entegre edilen; dil, görsel, eylem ve kişisel bağlam genelinde güçlü yetenekler sunan yeni kişisel zeka sistemi Apple Intelligence’ın temelini oluşturuyor
  • Bunlar, kullanıcıların Apple ürünleri genelinde günlük etkinliklerini yerine getirmesine yardımcı olmak amacıyla geliştirildi; her aşamada sorumlu biçimde oluşturuldu ve Apple’ın temel değerleri tarafından yönlendirildi
  • Dil, difüzyon ve kodlama modellerini içeren daha geniş üretken model ailesine dair bilgilerin yakında paylaşılacağı belirtildi

1 yorum

 
GN⁺ 2024-06-11
Hacker News yorumu
  • Adapter kullanımı: Önceden eğitilmiş modelin farklı katmanlarına takılabilen küçük sinir ağı modülleri olan adapter’lar kullanılarak model, belirli görevler için ince ayar yapılıyor. Bu, uygulama geliştiricilerinin her donanım modeli için optimize edilmiş modeller kullanmasını mümkün kılıyor.

  • Beklenti: Henüz üçüncü taraf eğitim desteğine dair bir duyuru yok, ancak bunun planlanıyor olması bekleniyor. Yerel+özel ML’nin zorluğu, her uygulamanın büyük boyutlu ağırlıklara ihtiyaç duymasını gerektirmemek.

  • Apple’ın fırsatı: Apple’ın her çipe göre optimize edilmiş modeller sunma ve yeni kullanım senaryoları için yalnızca birkaç MB ağırlık gerektiren adapter’lar sağlama fırsatı var. Bu, model tarafında uygulama inceltmeye benziyor.

  • Geliştirici deneyimi: Temel model en güncel durumda olmasa bile geliştirici deneyimi harika ve tekrarlanabilir. Sunucu tarafı çok daha kolay ve yerel+özel yaklaşımın birçok kullanım senaryosunu kapsaması bekleniyor.

  • Adapter’ların rolü: Adapter’lar kullanılarak model belirli görevlere göre ince ayarlanıyor, bellek verimli şekilde yönetiliyor ve işletim sisteminin yanıt verebilirliği korunuyor. Adapter parametreleri 16 bit ile ifade ediliyor ve yaklaşık 300 milyon parametreli bir model için yaklaşık 10 MB bellek gerekiyor.

  • LoRA’lara benzerlik: Bu yaklaşım LoRA’lara benzer gibi geliyor.

  • Karşılaştırma grafiği: Makalenin ortasında diğer ilgili modellerle bir karşılaştırma grafiği yer alıyor. Sunucu tarafı model GPT-3.5’ten daha iyi, GPT-4’ten ise daha kötü. Ancak özellikle "çıktı zararlılığının insan değerlendirmesi" grafiği ilgi çekici.

  • Modelin temkinliliği: GPT’yi "seviye 3" hâline getirip, OpenAI’ın modelini kullanarak "bunu ChatGPT söyledi" ifadesini netleştirecek şekilde modeli daha temkinli yapıyor.

  • Sunucu modeli kullanma isteği: Bu iki sayfadaki içerik çok iyi görünüyor ve Apple yığını için optimize edilmiş bir bulut kurmak amacıyla sunucu modelini denemek istiyorum.

  • Bellek artışı beklentisi: Apple’ın tüm Mac’lerde taban belleği 8 GB’ın üzerine çıkaracağı umuluyor. 16 GB M4’ün varsayılan olmasını isterdim, ancak Apple’ın 12 GB sunup 16 GB seçeneği için ek ücret talep etmesi muhtemel.

  • Veri gizliliği: Apple, üçüncü taraf hizmetlere ne gönderdiğini net biçimde açıklamalı ve kullanıcı isterse bunu devre dışı bırakabilmeli. Çıkarımı cihaz üzerinde çalıştırmak ile veriyi OpenAI API’si üzerinden göndermek aynı şey değil.

  • Alan adı tercihi: machinelearning.apple.com kullanılmasını beğendim.

  • Optimizasyon sonucu: 3.5B ağırlığı kalite kaybı olmadan kullanabilmek, en ileri düzey optimizasyon sonuçlarından biri.

  • Çıktı zararlılığı değerlendirmesi: Mistral-7B’nin küçük modeller arasında yanlış pozitif reddi en aza indirmede en iyi olduğu görülüyor.

  • Pil ömrüne etkisi: Bu tür modellerin pil ömrünü nasıl etkilediğini merak ediyorum. iPhone 15 Pro’da PrivateLLM uygulamasını denediğimde, birkaç dakikalık kullanımın ardından pil seviyesi hızla düştü.