1 puan yazan GN⁺ 19 일 전 | 1 yorum | WhatsApp'ta paylaş
  • Meta Superintelligence Labs tarafından geliştirilen Muse Spark, araç kullanımı, görsel düşünce zinciri ve çoklu ajan iş birliğini destekleyen bir çok modlu akıl yürütme modeli
  • Kişisel süperzeka (personal superintelligence) yolunda ilk adım olarak, meta.ai ve Meta AI uygulamasında bazı kullanıcılara özel API önizlemesi şeklinde sunuluyor
  • Model, ön eğitim, pekiştirmeli öğrenme ve test zamanı akıl yürütme olmak üzere üç eksen boyunca ölçekleniyor ve Llama 4'e kıyasla 10 kattan fazla daha verimli eğitim performansı elde ediyor
  • Contemplating modu üzerinden paralel ajan tabanlı yüksek zorluktaki akıl yürütmeyi gerçekleştiriyor ve Gemini Deep Think ile GPT Pro seviyesinde ileri düşünme yeteneği sunuyor
  • Meta, Muse Spark'ı temel alarak hem güvenli hem verimli kişiselleştirilmiş bir süperzeka modeli haline getirmeyi hedefliyor

Muse Spark genel bakış

  • Muse Spark, Meta Superintelligence Labs tarafından geliştirilen bir çok modlu akıl yürütme modeli olarak araç kullanımı, görsel düşünce zinciri (visual chain of thought) ve çoklu ajan orkestrasyonu özelliklerini destekliyor
  • Meta'nın yapay zeka araştırmalarını baştan yapılandırmasının ilk sonucu olarak, kişisel süperzeka (personal superintelligence) yolundaki ilk adım şeklinde tanıtılıyor
  • Araştırma, model eğitimi ve altyapı (ör. Hyperion veri merkezi) genelinde ölçekli yatırımlar sürüyor
  • Şu anda meta.ai ve Meta AI uygulamasında kullanılabiliyor; bazı kullanıcılara özel API önizlemesi sağlanıyor

Kişisel süperzeka için özellikler

  • Muse Spark, çok modlu algı, akıl yürütme, sağlık ve ajan tabanlı görevler alanlarında rekabetçi performans sergiliyor
  • Uzun vadeli ajan sistemleri ve kodlama iş akışları gibi bazı alanlardaki performans farkını kapatmak için yatırımlar sürüyor
  • Contemplating modu, birden fazla ajanı paralel çalıştırarak karmaşık problemleri çözüyor ve Gemini Deep Think ile GPT Pro gibi öncü modellerin yüksek zorluktaki akıl yürütme modlarına karşılık geliyor
    • Humanity’s Last Exam'de %58, FrontierScience Research'te %38 performans elde etti
  • Contemplating modu meta.ai üzerinde kademeli olarak kullanıma sunulacak

Başlıca uygulama alanları

  • Muse Spark, kullanıcının dünyasını anlayan ve onunla etkileşime giren bir kişisel süperzekaya dönüşmek için temel sağlıyor
  • Çok modlu entegrasyon sayesinde görsel bilgiyi ve araçları birleştirerek STEM görsel problemleri, varlık tanıma ve konum belirleme gibi alanlarda yüksek performans elde ediyor
    • Örnek: mini oyun oluşturma, ev aletlerindeki sorunları çözerken dinamik açıklama ekleme işlevi sunma
  • Sağlık alanında, 1.000'den fazla doktorla iş birliği yapılarak eğitim verisi oluşturuldu; bu sayede olgusal ve kapsamlı sağlık akıl yürütmesi mümkün oluyor
    • Yiyeceklerin besin öğeleri, egzersiz sırasında etkinleşen kaslar gibi sağlık bilgilerini görsel olarak açıklayan etkileşimli ekranlar oluşturabiliyor
  • Örnek istemlerde yoga duruşu değerlendirmesi, diyet önerisi görselleştirmesi, kahve makinesi kullanım eğitimi gibi kişiye özel görsel etkileşim yetenekleri gösteriliyor

Ölçeklenme eksenleri

  • Muse Spark'ın ölçeklenmesi, ön eğitim, pekiştirmeli öğrenme ve test zamanı akıl yürütmesi olmak üzere üç eksen etrafında ilerliyor
  • Ön eğitim

    • Modelin çok modlu anlama, akıl yürütme ve kodlama yeteneklerinin temelinin oluşturulduğu aşama
    • Son 9 ayda model mimarisi, optimizasyon ve veri kürasyonu iyileştirilerek hesaplama verimliliği büyük ölçüde artırıldı
    • Aynı performansa ulaşmak için gereken eğitim FLOPs'u, Llama 4 Maverick'e kıyasla 10 kattan fazla azaltıldı; böylece başlıca rakip modellerden daha verimli hale geldi
  • Pekiştirmeli öğrenme

    • Ön eğitim sonrasında model yeteneklerini genişleten aşama; büyük ölçekli RL'nin kararsızlığını çözerek öngörülebilir performans artışı sağlıyor
    • RL hesaplama miktarı (adım sayısı) arttıkça pass@1 ve pass@16 metrikleri log-lineer biçimde büyüyor; böylece model güvenilirliği ve çeşitliliği aynı anda iyileşiyor
    • Eğitime dahil edilmeyen değerlendirme setlerinde de doğruluk artışı görülerek genelleme performansı gösteriliyor
  • Test zamanı akıl yürütmesi

    • Model, yanıt vermeden önce 'düşünme' süreci yürütmek üzere eğitiliyor
    • Verimli token kullanımı için düşünme süresi cezası (thinking time penalty) ve çoklu ajan iş birliği kullanılıyor
    • RL eğitimi, düşünme süresine ceza verirken doğruluğu en üst düzeye çıkarıyor; bunun sonucunda 'düşünce sıkıştırması (thought compression)' olgusu ortaya çıkıyor
      • Problem daha az token ile çözüldükten sonra, yeniden genişletilmiş düşünmeyle performans güçlendiriliyor
    • Çoklu ajanlı paralel akıl yürütme sayesinde gecikmeyi (latency) artırmadan performans artışı sağlanıyor

Güvenlik değerlendirmesi

  • Muse Spark, çift kullanımlı bilim alanları dahil geniş akıl yürütme yeteneklerine sahip olduğu için, dağıtımdan önce kapsamlı güvenlik değerlendirmeleri yapıldı
  • Meta'nın Advanced AI Scaling Framework v2 çerçevesine dayanarak tehdit modeli, değerlendirme protokolleri ve dağıtım kriterleri tanımlandı
  • Biyolojik ve kimyasal silahlar gibi yüksek riskli alanlarda güçlü reddetme (refusal) davranışı gösteriyor; bu durum veri filtreleme, güvenlik odaklı sonradan eğitim ve sistem düzeyi korumalarla güçlendirildi
  • Siber güvenlik ve kontrol kaybı (Loss of Control) alanlarında risk senaryolarını hayata geçirecek özerk yetenek bulunmuyor
  • Genel değerlendirme sonucunda Muse Spark, ölçülen tüm frontier risk kategorilerinde güvenlik sınırları içinde yer alıyor
  • Apollo Research'ün dış değerlendirmesinde Muse Spark'ın değerlendirme farkındalığı (evaluation awareness) seviyesi en yüksek model olduğu gözlemlendi
    • Bazı durumlarda değerlendirildiğinin farkına varıyor ve dürüst davranması gerektiği sonucuna varıyor
    • Ancak bu farkındalığın gerçek davranış üzerindeki etkisi sınırlı; yalnızca risk yetenekleriyle ilgisiz bazı hizalama değerlendirmelerinde küçük etkiler tespit edildi
    • Meta bunu yayını engelleyen bir unsur olarak görmüyor; yalnızca ek araştırma gerekliliğine işaret ediyor

Sonuç

  • Muse Spark, öngörülebilir ve verimli bir ölçeklenme yolu üzerinde bulunuyor ve gelecekte daha güçlü kişisel süperzeka modellerine dönüşmesi bekleniyor
  • Meta, sürekli olarak geliştirilmiş modeller yayınlayarak kişiselleştirilmiş süperzeka çağına doğru ilerlemeyi hedefliyor

1 yorum

 
GN⁺ 19 일 전
Hacker News görüşleri
  • İnsanların bunu neden küçümsediğini anlamıyorum. Eğer bu model Opus 4.6 ile benzer seviyedeyse ya da onu biraz geçiyorsa, bu Meta'nın önde gelen yapay zeka şirketleriyle rekabet edebilecek bir model yaptığı anlamına gelir
    Elbette pahalıya mal olmuştur ama artık bunu temel alıp bir kodlama ajanına dönüştürmek o kadar da uzak görünmüyor. Ayrıca Meta açısından bakınca, IG, WhatsApp, VR gibi kendi ürünlerinin genelinde SATA modelini doğrudan kullanabilecek olması uzun vadede finansal açıdan da fayda sağlayacaktır

    • Şüpheci tepkileri de anlıyorum. Daha önce llama 4 benchmark abartısı olayı yaşanmıştı. Bu model de aslında birkaç aydır vardı ama o dönemde Gemini 2.5 Pro seviyesinde olduğu için yayın ertelenmiş gibi görünüyor
    • Kodlama ajanı pazarı zaten Anthropic ve OpenAI tarafından yoğun biçimde hedefleniyor. Meta'nın kovalaması gereken fırsat aslında tüketiciye yönelik AI alanı olabilir. OpenAI yakında kaynaklarını ücretsiz kullanıcılarla kurumsal müşteriler arasında nereye ayıracağına karar vermek zorunda kalacak
    • Sadece benchmark'lara bakınca fena değil ama gerçek programlama pratikliği açısından Opus seviyesinde değil. Gündelik kodlama işlerinde ne kadar faydalı olduğu benchmark'larla tam ölçülemiyor. Yine de rekabetin artması iyi bir şey
    • “Opus 4.6'yı geçiyor” demek doğru değil
    • Meta'ya karşı temel bir antipati duyan çok insan da var. Haklı olsun ya da olmasın, sırf Meta olduğu için sevmeyen çok kişi bulunuyor
  • Simon Willison'ın yazısını görüp Pelicans örneğine baktım. meta.ai üzerinde de bizzat denedim, oldukça iyiydi. Python Code Interpreter container'ı ve container.visual_grounding adlı görüntü analizi aracı özellikle ilginçti

    • Alexandr Wang, bunun ileride açık kaynak olarak yayınlanabileceğini söyleyince umutlandım
    • Bölgeye göre sunulan araçlar farklı gibi görünüyor. Bende visual_grounding özelliği yoktu; yalnızca bu linkteki özelliklere erişebildim
    • Simon'a sormak isterdim — şu ana kadar gördüğü modeller arasında ‘bisiklete binen pelikan’ görselini en iyi yapan hangisiydi acaba
    • meta.ai'ı sadece giriş yapınca kullanabiliyor olmak üzücü. Umarım yakında Openrouter da destekler. Yine de bir an önce denemek isteyecek kadar merak uyandırıyor
  • Bunun 19. yüzyıldaki demiryolu patlamasına benzediğini düşünüyorum. Birden çok şirket benzer seviyede AI üretirse, giriş engeli (moat) ortadan kalkar ve sonunda fiyatlar düşer. Yatırılan sermaye geri kazanılamayabilir

    • Bu yüzden Anthropic'in API fiyatlarını yüksek tuttuğunu ve kendi ürün aboneliklerini sınırladığını düşünüyorum. Bu, teknik olmayan kullanıcıların daha uzun süre elde tutulmasına yönelik bir strateji
    • Zaten bunların hepsi devletle yakın bağlara sahip, bu yüzden piyasa mantığının ötesinde destek alacaklar. Diyelim ki başarısız oldular, bunun sonucunda bile open-weight modeller ortaya çıkabilir. Ama o modeller de muhtemelen birkaç ay içinde eskiyecek
    • Tersine, bugün AI akıllı telefonlar kadar kitlesel, buhar makinesi kadar yıkıcı. AI şirketleri dünyanın en büyük yazılım şirketlerine dönüşüyor ve piyasada trilyon dolarlık fırsat var
    • Gerçek moat, hesaplama gücü ve enerjiye erişimde. Bu yüzden Elon Musk bizzat çip fabrikaları kuruyor. HuggingFace'te çok model olabilir ama onları gerçekten çalıştırabilecek kişi çok az
  • İç benchmark'larda denedim, hiç etkileyici değil. OpenAI, Anthropic veya Gemini ile kıyaslanacak seviyede değil. Teknik sorularda analitik hatalar da çoktu

    • Biraz daha test edince temel matematik hatalarının fazla olduğunu gördüm. Gemini ile çapraz doğrulama yaptım; neredeyse tüm basit sorularda hata çıktı
    • Yine de multimodal tarafta oldukça iyi. 3 milyar insanın kullanabileceği düzeyde ama bilim alanında hâlâ geride
    • Aslında Gemini'nin bile o sohbetin seviyesine çıktığını düşünmüyorum
  • “Ask Meta AI…” giriş alanına tıkladım, sonra giriş zorunluluğu ve Facebook/Instagram bağlantısı adımları geldi. Tam bir dark pattern hissi veriyor. OpenAI bu kısmı çok daha iyi ele aldı

  • Eğer Meta yeniden bir frontier model elde ettiyse, şimdi onların stratejik yönünü merak ediyorum. Eskisi gibi açık ekosistem felsefesini bırakmış olmasınlar diye düşünüyorum
    llama4 zayıf kalmış olabilir ama o strateji korunmuş olsaydı bugün olduklarından çok daha ileride olabilirlerdi. Diğer şirketler zaten ekosistemlerini kurdu, Meta'nın ise yok.
    Yeniden tartışmanın merkezine dönmek için OpenCode gibi projelere 1 milyar dolar civarında yatırım yapıp açık ekosistemi canlandırmaları gerekir. Aksi takdirde sadece kapalı bir iç model olarak kalırlar

    • Yeni bir açık harness'e gerek olmayabilir. Anthropic bunu zaten topluluğa ücretsiz verdi
  • İlk kez çizim/tabanlı görsel akıl yürütme testi yaptım; ChatGPT, Claude, Gemini ve Grok arasında yalnızca Gemini başarılı olmuştu. Ama Muse Spark bunu kusursuz yaptı. PDF'den ilgili sayfaları çıkarıp satır içinde gösterdi ve doğru cevabı verdi
    Şimdilik sadece şanslı bir deneme de olabilir ama ilk izlenim o kadar iyi ki test etmeye devam edeceğim. Yalnız Meta'nın veri kullanım politikası çok agresif, bu yüzden hassas belgeler için uygun değil.
    Keşke ücretli planda veri eğitimine dahil etmeme seçeneği olsa. Ücretsiz hizmet karşılığında veriden para kazanılan yapı tedirgin edici

  • Bu model GPT 5.4 / Gemini 3.1 Pro / Opus 4.6 seviyesine yakın. Kodlamada OpenAI, metin akıl yürütmede Google, Humanity’s Last Exam tarafında Anthropic önde. Yine de Meta'nın yeniden bir frontier laboratuvarı haline geldiği söylenebilir.
    Şu anda 3,5 atlık bir yarış var ve sıradaki modeli merak ediyorum. Rekabetin artması iyi. Grok 4.2'yi artık tablodan çıkarmak gerekebilir

    • Bir süredir ana araç olarak Grok Code kullandım ve oldukça iyiydi. Sonuçta LLM'ler kullanım bağlamına ve alana göre değişiyor. Özellikle sağlıkla ilgili sorularda diğer modeller cevap vermekten kaçındığı için Grok kullanmaya devam ediyorum
    • Ama Meta'nın bu yaklaşımı akıl yürütme gücü ve uzun vadeli problem çözmede eksik görünüyor. Anthropic'in Mythos modeline kıyasla HLE puanı daha düşük. Yine de genel olarak olumlu bir ilerleme
  • “Personal” aslında Meta'nın kişisel verileri reklamlarda kullanması demek

    • Ve bunu yaparken kullanıcının zihinsel özünü de modele emiyor gibi hissettiriyor
    • Ben sadece reklam hedefi olacaksam, bana istedikleri kadar reklam göstermelerinde sorun yok
  • visual chain of thought” ifadesi ilginç. Bunun kullanıcının akıl yürütme sürecini görsel olarak görebilmesi anlamına mı geldiği, yoksa modelin görseller üzerinden düşündüğü anlamına mı geldiği belirsiz. Eğer ikincisiyse gerçekten devrim niteliğinde olurdu

    • Ama şimdiye kadar gördüğüm çoğu chain of thought, yalnızca öyle görünmek için hazırlanmış bir sahte akıl yürütme gibi duruyordu. Gerçekte içeride başka şekilde işleniyor
    • Aslında bu tür görsel ara adımlar Gemini'de de zaten görülüyor. Görsel görevler sırasında ara diyagramlar üretebiliyor ve 2024 tarihli araştırmalarda da turtle diagram gibi yaklaşımlar önerilmişti