1 puan yazan GN⁺ 5 시간 전 | 1 yorum | WhatsApp'ta paylaş
  • Core AI, AI modellerini Apple silicon üzerinde uygulama içinde çalıştırmak, optimize etmek ve dağıtmak için yeni bir çerçeve
  • CPU, GPU ve Neural Engine kullanır; Swift API ile .aimodel çıkarımını uygulamaya entegre etmek mümkün
  • PyTorch modellerini Core AI modellerine dönüştürür ve araç zinciriyle sıkıştırma, hata ayıklama ve ön derleme sunar
  • Büyük modeller çalıştırılmadan önce specialization gerektirir; bu yüzden indirme, önbellekleme ve ilk çalıştırma akışının tasarımı önemlidir
  • SAM 3, Qwen ve Transformer örnekleriyle cihaz üzerinde görüntü, dil ve durum önbellekleme optimizasyon akışları da tanıtılıyor

Core AI'nin rolü

  • Core AI, Apple platformlarının genelinde cihaz üzerinde yapay zeka çalıştırma için yeni bir teknoloji paketi
    • iOS 27.0+ Beta, iPadOS 27.0+ Beta, macOS 27.0+ Beta, tvOS 27.0+ Beta, visionOS 27.0+ Beta, watchOS 27.0+ Beta desteği sunuyor
    • Uygulama içinde yüksek performanslı yapay zeka çıkarımı çalıştırır ve kullanıcı verilerini cihaz dışına göndermeyen bir yapı sağlar
  • Core AI, yalnızca bir çalıştırma API'si değil; model hazırlıktan uygulama entegrasyonuna kadar olan süreci kapsar
    • Model optimizasyonu, PyTorch dönüşümü, .aimodel üretimi, hata ayıklama, Xcode profilleme ve ön derleme sunar
    • Sinir ağları dışındaki decision tree veya tabular feature engineering modelleri için hedef Core ML'dir

Geliştirme akışı: PyTorch'tan Swift uygulamasına

  • Core AI, mevcut PyTorch iş akışını Apple silicon dağıtım akışına bağlar
    • torch.export ile PyTorch modeli exported program'a dönüştürülür
    • Core AI PyTorch Extensions içindeki TorchConverter ile .aimodel oluşturulur
    • Core AI Optimization ile Apple silicon'a uygun sıkıştırma ve optimizasyon uygulanır
  • Swift uygulamasında yeni Core AI Framework API'si ile model yükleme ve çıkarım yürütülür
    • AIModel, .aimodel dosyasını yükler ve çıkarım fonksiyonlarını inceler
    • InferenceFunction, yürütülebilir tek bir hesaplama grafiğidir
    • NDArray, çok boyutlu giriş ve çıkış verilerini tutan tiptir
    • Yapı, run çağrısıyla NDArray girişleri verip çıkarım sonuçlarını alma şeklindedir
  • .aimodel dosyaları Xcode içinde doğrudan incelenebilir
    • Model boyutu, işlem dağılımı, meta veriler ve fonksiyon imzaları görülebilir
    • Dinamik shape boyutları ? ile gösterilir

Performans optimizasyonu: state, cache, memory layout

  • Transformer modellerinde olduğu gibi giriş dizisinin uzadığı yapılarda çıkarım süresi giderek artabilir
    • Snake örneğinde iki Snake de AI modeliyle çalıştırıldığında oyun zaman geçtikçe yavaşladı
    • Core AI Instruments içinde çıkarım aralığının giderek uzadığı görüldü
  • Core AI, key/value cache benzeri yapıları kurmak için state kullanmayı destekler
    • State, modelin hem girdisidir hem de çıkarım sırasında okunup yerinde güncellenir
    • Önceki adımın key/value değerleri yeniden hesaplanmadan önbellekte saklanır
    • Böylece tüm oyun geçmişini her seferinde giriş olarak vermek gerekmez
  • Swift tarafında InferenceFunction.run içindeki states parametresine mutable view koleksiyonu geçirilir
    • Güncellenen model, zaman geçse de sabit bir hız korur
    • Instruments'ta da çıkarım gecikmesindeki artışın çok daha yavaş olduğu görülür
  • Core AI, çıkarım döngüsü ek yükünü azaltan bellek kontrol özellikleri de sunar
    • NDArray için en uygun memory layout kontrol edilebilir ve buna göre tahsis yapılabilir
    • Çıkış değerleri önceden tahsis edilerek çıkarım sırasında yeni çıkış tahsisi engellenebilir
    • Asenkron değerler kullanılarak birden çok çıkarım fonksiyonu pipeline hâline getirilebilir

Model dağıtımı: indirme, specialization, ön derleme

  • Core AI modelleri, tüm Apple cihazlarında çalışabilecek bir kaynak temsildir; ancak gerçek çalıştırma öncesinde cihaza özel specialization gerekir
    • Model yüklenirken önbellekte specialization sonucu olup olmadığı kontrol edilir
    • Yoksa ilgili cihaz ve OS sürümüne uygun çalıştırma artifact'i oluşturulur
  • Büyük modellerde specialization zaman alabileceği için bunu kullanıcı etkileşiminin ortasına koymamak önemlidir
    • SAM 3 örneğinde ilk çalıştırmada model yükleme ve büyük specialization olayı nedeniyle spinner uzun süre görünür
    • Akış olarak, kullanıcı özellik tanıtım ekranında denemeye karar verdiğinde modelin Background Assets ile indirilmesi önerilir
  • coreai-build komutuyla bazı derleme adımları geliştirme makinesinde önceden yapılabilir
    • Belirli cihaz mimarileri hedeflenerek compiled model üretilebilir
    • Kullanıcı cihazında specialization yine gerekir, ancak kalan iş azaldığı için hazırlık süresi kısalır
  • AIModelCache ile model önbelleği programatik olarak kontrol edilebilir
    • Gereksiz öğeler silinebilir
    • Öğe saklama politikası kontrol edilebilir
    • Aynı app group içindeki birden fazla uygulama arasında önbellek paylaşılabilir

Model optimizasyonu ve hata ayıklama

  • Core AI Optimization, model sıkıştırma ve niceleme özellikleri sunar
    • INT4, INT8, FP4, FP8 ağırlık sıkıştırmasını destekler
    • calibration verisi veya quantization aware training kullanan niceleme API'leri sağlar
  • SAM 3 örneğinde 32 bit baseline asset 3GB'tan büyüktü; 4 bit sıkıştırma sonrası yaklaşık 430MB oldu
    • Tüm katmanlara agresif sıkıştırma uygulandığında gizlenmiş çiçeklerden biri algılanamadı
    • Yalnızca çıktıya bakarak hangi katmanın sorun yarattığını bulmak zordu
  • Core AI Debugger, dönüştürülmüş model ile özgün PyTorch modelinin iç değerlerini karşılaştırır
    • Model yapısını grafik olarak görselleştirir
    • Ara tensör değerlerini inceletir
    • Python kaynak kodundaki belirli satıra kadar izleme yapabilir
    • PSNR ölçütüne göre farkı büyük olan işlemleri işaretler
  • SAM 3 karşılaştırmasında düşük PSNR sync point'lerinin çoğu detector decoder'da ortaya çıktı
    • detector block, toplam parametrelerin yalnızca %4'ünü oluşturduğu için sıkıştırma kazancı küçüktü
    • detector niceleme dışında bırakılınca tüm çiçekler yeniden algılandı ve baseline kalite geri geldi

Core AI Models ve yüksek seviye API'ler

  • Core AI Models deposu, uygulamaya uygun şekilde dönüştürülüp optimize edilebilen popüler modeller ve export recipe'ler sunar
    • SAM 3 ve Qwen ailesi modeller bulunabilir ve Core AI modeline dönüştürülebilir
    • Swift paketleri, modele özel ön işleme ve son işleme adımlarını soyutlar
  • SAM 3 gibi segmentation modelleri CoreAIImageSegmenter ile kullanılabilir
    • Metin prompt'u ile nesne segmentasyonu yapılabilir
    • Ham tensör shape'leriyle doğrudan uğraşmadan Swift API'siyle mask çıkarılabilir
  • Qwen gibi dil modelleri CoreAILanguageModel ile yüklenebilir
    • asset loading, engine creation ve tokenizer setup işlemlerini soyutlar
    • FoundationModels içindeki LanguageModelSession ile bağlanarak kullanılabilir
    • Streaming yanıtlar ve @Generable tabanlı yapılandırılmış çıktı kullanılabilir

Geliştiricilerin dikkat etmesi gereken noktalar

  • Core AI, “uygulamada modeli çalıştıran API”den daha geniş kapsamlı bir cihaz üzerinde yapay zeka dağıtım sistemi
    • PyTorch modelini Apple silicon için .aimodele dönüştüren akış
    • Swift uygulamasında modeli güvenli ve verimli biçimde çalıştıran API'ler
    • Xcode, Instruments ve Debugger ile performans ve doğruluk analizi
  • Uygulama tasarımında, modelin kendisinden çok hazırlık süreci kullanıcı deneyimini büyük ölçüde etkiler
    • Modelin uygulamaya gömülü mü geleceği, yoksa Background Assets ile mi alınacağına karar verilmesi gerekir
    • İlk çalıştırmada indirme ve specialization sürecinin kullanıcıya nasıl gösterileceğinin tasarlanması gerekir
    • Önbellek politikası ve ön derleme stratejisi, büyük modellerin kullanılabilirliğiyle doğrudan bağlantılıdır
  • Core AI, Apple platformlarında görüntü modelleri, dil modelleri ve Transformer tabanlı modelleri cihaz üzerinde ele almak için bir geliştirme akışı sunar
    • SAM 3 örneğiyle segmentation modelinin sıkıştırma, ayrıştırma ve hata ayıklama akışı gösterilir
    • Qwen örneğiyle özel dil modeli ile Foundation Models API bağlantısı gösterilir
    • Snake Transformer örneğiyle state tabanlı key/value cache optimizasyonu gösterilir

Referans bağlantıları

1 yorum

 
GN⁺ 5 시간 전
Hacker News görüşleri
  • Yakında gelecek cihaz üstü Foundation Models güncellemesi daha da heyecan verici görünüyor: https://developer.apple.com/documentation/updates/foundation...
    Henüz fazla bilgi yok
    Ancak https://github.com/Arthur-Ficial/apfel projesini ben yönettiğim için taraflı olabilirim

    • fm aracının eklendiğini fark ettiniz mi diye merak ediyorum. Platforms State of the Union'da bahsedildi
      Çalıştırınca şu çıktıyı veriyor: https://gist.github.com/robgough/7893602895e7580117475076198...
    • Katılıyorum. OS API'sinin temel bir parçası olarak sistem geneline ve platform geneline kullanılabilen cihaz üstü bir model fikri çok çekici
      Normalde yazılımın parça parça olmasını daha çok severim ama Apple'ın varsayılan gelen özellikleri arasında gerçekten hoşuma giden çok şey var
      Yazılımın “bu platformda bu model var” bilgisini bilip bunu birçok küçük ve giderek daha büyük üretken yapay zeka işi için kullanabilmesi özellikle ilgimi çekiyor
    • Apfel faydalı görünüyor. Neredeyse 1 yıldır Apple Foundation Models ile denemeler yapıyorum ve gömülü uygulamalarda kullanılabilir gibi duruyor
      Yerel ajan tarzı kodlama araçlarını da daha derinlemesine inceliyorum; little-coder --model ollama/gemma4:12b-it-qat ile başladım
      Kurulumda birkaç dakika kazandırabilecek küçük bir ücretsiz kitap da hazırladım: https://leanpub.com/read/local-coding-agents
      Hiperscaler merkezli yapay zeka büyümesinin abartısına, özellikle veri merkezlerinin çevresel ve toplumsal maliyetlerine oldukça öfkeliyim; bu yüzden yerel ve özel yapay zekayı teşvik eden her girişimi destekliyorum
    • Apple'ın Core AI'a en azından test aracı olarak OpenAPI uyumlu bir endpoint ekleme fikrini benimsememiş olması şaşırtıcı
      Artık MCP desteği sunduklarına göre containerization/seatbelt stratejisi hakkında da daha fazlasını duymak isterim
      Darwin'in Apple'ın container sistemi içinde nasıl kullanıldığına dair hâlâ bir şey görmedim
      Apfel harika bir proje ve Tahoe'ya yükseltmek istememin tek nedeniydi
  • WWDC 2026 Core AI videoları
    Meet Core AI - https://developer.apple.com/videos/play/wwdc2026/324/
    Dive into Core AI model authoring and optimization - https://developer.apple.com/videos/play/wwdc2026/325/
    Integrate on-device AI models into your app using Core AI - https://developer.apple.com/videos/play/wwdc2026/326/

  • Bu, PyTorch modellerini CPU, GPU ve Apple Neural Engine (ANE) genelinde çalışan bir biçime dönüştürmenin yeni bir yolu gibi görünüyor [0]
    Mevcut API olan Core ML'in tamamen yerini alıp almayacağını merak ediyorum [1]
    [0]: https://apple.github.io/coreai-optimization/
    [1]: https://developer.apple.com/documentation/coreml/

    • Evet. Core AI belgelerine göre, uygulama sinir ağları dışındaki model türlerini, örneğin karar ağaçları veya tablo tabanlı özellik mühendisliğini kullanıyorsa Core ML'e bakılması söyleniyor
    • Oldukça ilginç, ama örneğin Metal için optimize edilmiş bir modeli llama.cpp benzeri bir yerde yükleyip kullanmaya yönelik mevcut yaklaşımlarla karşılaştırıldığında performansın nasıl olacağını merak ediyorum
      unsloth, bu tür işleri “pille birlikte gelir” tarzında yapan iyi bir örnek
    • Core ML'in yerini almaya çalışıyor gibi görünüyor ama şu anda Core AI, Core ML, MLX ve coremltools arasındaki ilişki daha da kafa karıştırıcı
      Apple bunların artılarını, eksilerini ve işlevsel eşdeğerliğin nereye kadar uzandığını daha iyi açıklamalı
    • OS 27 ve üzeri gerektiğinden, geriye dönük uyumluluk nedeniyle Core ML hâlâ faydalı
  • 2 milyonun altında indirmesi olan uygulamalara sunucu sınıfı modellere erişimi ücretsiz verip aynı gizlilik garantilerini sağlayacaklarını söylüyorlar
    Zamanla tüm uygulamalara genişlerse güzel olur. Donanım/maliyet kısıtları olacaktır ama daha büyük geliştiriciler maliyeti karşılayabilir gibi görünüyor
    https://developer.apple.com/private-cloud-compute/

    • Apple Intelligence Extensions ifadesine bakılırsa, şimdilik çok genişletmek yerine kullanıcıların hesabı olan diğer sağlayıcılarla geliştiricilerin entegrasyon kurmasına izin verecekler gibi görünüyor
  • Yapay zekanın geleceği açıkça yerel ve son zamanlarda bunu “sonsuz token” diye açıklıyorlar
    M1 MacBook Pro da bunu yapabilir, RTX 3090 da yapabilir
    Ayda yüzlerce dolar ödemeniz gerekmez; diğerleri için de durum aynı

    • 1980'lerde bilgi işlemin geleceğinin açıkça yerel olduğu düşünülüyordu. Ev bilgisayarları, PC'ler, Mac'ler, ofis sunucuları (Novell, daha sonra disk paylaşımı olan Windows NT) vardı
      40 yıl sonra modern birer akıllı terminale daha yakın merkezi altyapıya geri döndük
      Yapay zekanın geleceği de sonunda muhtemelen böyle akacak. Büyük olasılıkla yerel ile merkezi arasında gidip gelecek
      Yine de insanlar yerelde çalışan şeyleri satarak para kazanabilse bile, merkezileşme daha büyük güç ve daha büyük para yaratıyor gibi görünüyor
    • Saniyede 10 token ile sınırlı “sonsuz token”, ayda 26 milyon token eder
    • Asıl para, modelin etrafındaki kodu yazıp onu özel işlerde verimli hale getirmekte
      Genel kullanıcı genel amaçlı modeller isteyeceği için yapay zeka sohbet uygulamaları varlığını sürdürecek
      Programların çoğu yerelde çalışabilen özelleşmiş yapay zekadan fayda görebilir ve program sayısı kullanıcı sayısından çok daha fazladır
  • Apple görünüşe göre aktivasyonlar tarafında da çalışıyor. Bildiğim kadarıyla w4a8, w4a16
    Bunu gerçekten başarabilirlerse — ki bu büyük bir varsayım — Apple'ın pazar erişimi düşünüldüğünde, 100 milyardan küçük parametreli modellerin eğitilme ve sunulma biçimini önemli ölçüde etkileyebilir
    Başlıca kullanım alanı cihaz üstünde olacak ve çoğu büyük olasılıkla iOS'tan ziyade macOS'ta görülecek

  • Henüz bunun büyük ölçüde öne çıkarıldığını pek görmedim ama Mac'ler arasında dağıtık çıkarım ilginç. Thunderbolt 5 üzerindeki JACCL, OpenAI uyumlu mlx_lm.server ve Mac üzerinde ajan benzeri çalıştırma buna dahil
    Apple, MLX'i (doğrudan ağırlık içe aktarma) Foundation Models / Core AI'dan ayrı tutuyor

  • Yapay zeka şirketlerinin halka arz için acele etmesinin nedeni bu
    Gelecek yılın sonuna doğru yapay zekanın büyük kısmını doğrudan cihazda çalıştırıyor olacağız
    Ellerinde bir hendek yok, ölçeklenmenin sınırına dayandılar ve sihir gibi görünen şeylerin çoğu daha küçük modellere damıtılabilir; onlar da bunun farkında

    • Qwen'in 30 milyar sınıfındaki modeli, saniyede 30–90 token çalıştıracak kadar bellek bant genişliği olan bir makineniz varsa pratikte gayet kullanılabilir
      Qwen'in 120 milyar sınıfı model çıkarmayı durdurmuş olması oldukça anlamlı
      Önümüzdeki 10 yıl içinde, belki 3 yıl içinde biri yerelde çalıştırılabilen Opus 4.5 seviyesinde 256 milyarlık bir model çıkaracak
      Şu anda mühendislerimiz Opus token'larına ayda yaklaşık 800 dolar harcıyor ve bu orana göre yerel LLM için yatırımın geri dönüş süresi yaklaşık 10 ay
    • Gerçekten ölçeklenmenin sınırına ulaşılıp ulaşılmadığını bilmiyorum
      Ne yazık ki daha büyük modeller hâlâ daha iyi modeller gibi görünüyor
    • Kodlama alanında 35 milyar, 70 milyar, 150 milyar modellerin peşin birkaç yüz ila birkaç bin dolara satıldığı ve 1 yıl boyunca her ay ya da iki ayda bir yeni kodlama dokümanları ve depolarla eğitilmiş güncellemeler verildiği bir yapı görebiliriz
    • Yaşasın, boğucu hakimiyetleri kırıldı. Yaşasın devrim!
    • Cihazda çalışan çok küçük bir model istiyorum. Örneğin otomatik tamamlamada “I'll be right Brian” yerine “I'll be right back” yazmak istediğimi anlayacak kadar olması yeterli
      Şu anda bir numaralı yapay zeka isteğim bu. Lütfen, Apple
  • Linux'ta da böyle bir şey olup olmadığını merak ediyorum
    Örneğin bir uygulama geliştiricisi, çekirdek belirli bir sürümün üzerindeyse GNU Core AI gibi bir şeyin var olduğunu varsayabilir mi?

    • Apple dışındaki platformlarda genelde desteklenmesi gereken silikon üreticisi sayısına en az 2 tane daha eklenmiş kadar yapay zeka çerçevesi ile ilgilenmek gerekir
      Apple da artık Core ML, MLX ve Core AI arasında böyle bir noktaya gelmiş gibi görünüyor
      Çerçeve parçalanması sorununun yakında ortadan kalkacağına dair bir işaret görmedim
      NVIDIA herkesin eğitim ve çıkarım için CUDA kullanmasını istiyor ve NPU'ların yararlı olduğu gerçeğini inkâr etmeye çalışıyor
      NPU üreten her şirketin kendi mimarisine ve LLM öncesi dönemde tasarlanmış donanımdan miras kalan sınırlara uyarlanmış ayrı bir çerçevesi var. Çoğunun GPU'ları hedefleyen başka bir çerçevesi de bulunuyor
      İşletim sistemi üreticilerinin de donanıma özgü çerçeveler yerine kullanılmasını istedikleri bir ya da iki çerçevesi oluyor
    • Pratikte bu rolü llama.cpp üstleniyor. Bağlayarak kullanabilir veya ağ API'sini kullanabilirsiniz
    • Hayır. Ama Red Hat ve IBM kendi dağıtımları için böyle bir şey yapıyor
    • onnxruntime, llama.cpp, daha spesifik olarak ggml var; iree.dev de bunu deniyor
  • Bunun ANE üzerinde istenen her şeyi çalıştırabilmek anlamına gelip gelmediğini merak ediyorum
    En son denediğimde bunun yalnızca Face ID gibi Apple'ın birinci taraf özellikleri için kullanılabildiği görünüyordu

    • Modeli Core ML'ye dönüştürürseniz bunu zaten yapabiliyordunuz
      ANE'yi hiç kullanamayan şey MLX idi
    • Bunu yıllardır Core ML ile yapıyorlar