4 puan yazan GN⁺ 3 시간 전 | 4 yorum | WhatsApp'ta paylaş
  • Gemma 4 12B, dizüstü bilgisayarlarda ajan tabanlı çok modlu zekayı çalıştırmak için tasarlanmış orta ölçekli bir modeldir ve edge dostu E4B ile daha gelişmiş 26B MoE arasındaki boşluğu doldurur
  • Enkodersüz entegre mimari ile görüntü ve ses girdilerini ayrı bir çok modlu enkoder olmadan doğrudan LLM omurgasına aktararak gecikmeyi ve bellek kullanımını azaltmayı hedefler
  • Standart benchmark performansı daha büyük 26B MoE modeline yaklaşırken toplam bellek kullanımı bunun yarısından azdır; 16GB RAM ya da VRAM/birleşik bellek ortamına sahip tüketici dizüstü bilgisayarlarda yerel olarak çalıştırılabilir
  • Gemma 4 12B, Gemma ailesindeki ilk orta ölçekli model olarak yerel ses girdisi desteği sunar ve Multi-Token Prediction drafters ile gecikmeyi azaltmayı amaçlar
  • Gemma 4 modelleri 150 milyondan fazla indirmeyi aştı; Gemma 4 12B ise Apache 2.0 lisansı ve başlıca geliştirme araçları ile dağıtım yolları desteği sayesinde yerel çok modlu ajan geliştirme alanını genişletir

Temel özellikler

  • Gemma 4 12B, yüksek performanslı çok modlu zekayı doğrudan dizüstü bilgisayarlara getirmek için tasarlanmıştır; mobile-first verimliliği gelişmiş akıl yürütmeyle birleştirir
  • Edge dostu E4B ile daha gelişmiş 26B Mixture of Experts(MoE) arasında konumlanır ve azaltılmış bellek ayak izine güçlü yetenekler sığdırır
  • Başlıca özellikler şunlardır
    • Görüntü ve ses girdilerini çok modlu enkoder olmadan doğrudan LLM omurgasına aktaran entegre mimari
    • 26B modele yakın benchmark performansı ile çok aşamalı akıl yürütme ve ajan iş akışı desteği
    • Yalnızca 16GB VRAM veya birleşik bellekle yerel olarak çalışabilen dizüstü bilgisayar hazırlığı
    • Apache 2.0 lisansı ve geliştirici ekosistemi desteği
    • Multi-Token Prediction(MTP) drafters ile gecikme azaltımı

Enkodersüz çok modlu işleme yaklaşımı

  • Mevcut çok modlu modeller genellikle görüntü ve sesi ayrı enkoderlerle dönüştürür, ardından bu temsilleri dil modeline iletir
  • Gemma 4 12B, ayrık enkoderlerin gecikmeyi ve bellek kullanımını artırmasını önlemek için ses ve görüntü girdilerini doğrudan entegre edecek şekilde eğitilmiştir
  • Görüntü işlemede, Gemma 4’ün görüntü enkoderi; tek bir matris çarpımı, konumsal gömme ve normalizasyondan oluşan hafif bir gömme modülüyle değiştirilir, böylece görsel işlemeyi LLM omurgası üstlenir
  • Ses işlemede, ses enkoderi tamamen kaldırılır ve ham ses sinyali metin tokenlarıyla aynı boyutsal uzaya projekte edilir
  • Geliştiricilere yönelik daha ayrıntılı mimari açıklama için Gemma 4 12B Developer Guide incelenebilir

Başlangıç yolları

4 yorum

 
loblue 3 분 전

Bunu 32 GB RAM’li M1 MacBook’umda denemem gerekecek. 12B ise iyi gibi görünüyor

 
kaydash 43 분 전

Bu daha yeni çıkmadıysa neden şimdi gündeme geliyor?

 
winterjung 38 분 전

Daha önce yalnızca e modeli ile 26b ve 31b vardı; gemma 4 12b modeli ise bu kez yeni çıktı.

 
GN⁺ 3 시간 전
Hacker News görüşleri
  • Q4 kuantize modeli llama.cpp ile çalıştırıp kendi yaptığım Minesweeper vibe coding benchmark içine koyup denedim: https://senko.net/vibecode-bench/2026/minesweeper-gamma-4-12...
    Sonuçlar iyiydi ama fazladan bir kapatma parantezi eklemek ya da fonksiyon tanımlarını virgülle ayırmaya çalışmak gibi tuhaf ve küçük bazı sözdizimi hatalarını birkaç kez elle düzeltmem gerekti
    Bu ipuçlarını dikkate alınca yerel bir kodlama modeli olarak gayet iyi ve yalnızca çıktıya bakınca yaklaşık 14 ay önce çıkan GPT-4.1 ile kabaca benzer görünüyor: https://senko.net/vibecode-bench/2025/minesweeper-gpt-4.1.ht...
    12GB VRAM'li tüketici kartında 4 bit GGUF ile 5 token/sn çıktı verdi; etkileşimli kodlama için yavaş ama oldukça kullanılabilir bir model
    Bir yıldan biraz fazla süre içinde, bir zamanlar GPT-4.1 seviyesinde sayılan kodlama performansının 12 milyar parametreli bir model tarafından belirli bir benchmark'ta neredeyse yakalanmış olması ilginç
    Test edilen çeşitli modellerin listesi: https://senko.net/vibecode-bench/
    • Muhtemelen kodlama için eğitilmiş bir model değil. Ses ve görüntü girdileri var, yalnızca 12B boyutunda ve duyurunun hiçbir yerinde kodlamadan bahsedilmiyor
      Genel kodlama performansı muhtemelen Qwen 3.6 35B A3B, Gemma 4 26B A4B, Nvidia Nemotron 3 Nano 30B-A3B ve gpt-oss-20b gibi diğer küçük modellere göre daha düşük olacaktır
      16GB dizüstünde Qwen 3.5 9B açık ara en güçlü seçenek ve küçük kodlama modellerinin zirvesi Gemma 4 31B, ancak dense olduğu için tam bağlamı kullanmak adına yaklaşık 48GB birleşik bellek gerekiyor
    • 12GB VRAM kartta 5 token/sn çıktı alınıyorsa, bu hibrit modda CPU ile sistem RAM'inin birlikte kullanıldığına işaret ediyor gibi görünüyor
      Bu hız, 4 bit için o boyuttaki bir modeli DDR4 RAM bant genişliğiyle çalıştırırken görülebilecek bir değer; RTX 2080 ya da RTX 3060 gibi 12GB tüketici Nvidia GPU'larda llama.cpp CUDA backend ile 20 token/sn üzeri görülmesi gerekir
    • Kodlamadaki en büyük kazanımın akıl yürütme yeteneği olduğu anlaşılıyor. Bu yüzden küçük bir model GPT-4.1'in kodlama performansına yaklaşabilir, ancak genel dünya bilgisinde daha büyük GPT-4.1'in hâlâ önde olması muhtemel
    • Bu sözdizimi sorunlarının fine-tuning ya da başka parametre ayarlarıyla çözülüp çözülemeyeceğini merak ediyorum. Bu tür hatalar oldukça sinir bozucu
  • Buradaki büyük mesele bence encodersız mimari, ama hâlâ tam olarak kavrayabilmiş değilim
    “Gemma 4'ün vision encoder'ını tek bir matris çarpımı, konumsal gömme ve normalizasyondan oluşan hafif bir gömme modülüyle değiştirdik” açıklaması teknik olarak hâlâ bir kodlama işlemi ve sanırım SigLIP gibi özel bir model kullanmadıkları anlamına geliyor
    Geliştirici kılavuzunda bunu 35M katman olarak biraz daha açıklıyorlar ama yeterince sağlam olup olmadığını merak ediyorum: https://developers.googleblog.com/gemma-4-12b-the-developer-...
    “16GB RAM'li tüketici dizüstüsünde yerelde çalışabilir” ifadesi sanki kuantizasyonu varsayıyor ve kalite kaybı düşünülünce biraz yanıltıcı olabilir
    • Geliştirici sayfasının içinde encodersız mimariyi iyi anlatan bir yazı var: https://newsletter.maartengrootendorst.com/p/a-visual-guide-...
    • Bu temelde erken füzyon
      FAIR bunu zaten 2 yıl önce yapmıştı: https://arxiv.org/abs/2405.09818
      O zamandan beri böyle bir modelin açık olarak yayımlanmasını bekliyordum; can sıkıcı tarafı, Chameleon aynı ilkeyle çok modlu çıktı da üretebilirken bu modelin yalnızca girdi kabul etmesi
      Çok modlu çıktı olmadan ön eğitimin nasıl yapıldığını merak ediyorum ve görüntü çıktısı desteğinin özellikle çıkarılıp çıkarılmadığını da bilmiyorum
    • Genel anlamda bakınca “encoding” demek doğru, ama burada sanırım encoder sinir ağı olmadığı kastediliyor
    • Asıl büyük hikâyenin Gallery uygulaması olduğunu düşünüyorum: https://developers.google.com/edge/gallery
      16GB Mac sahibi çok insan vardır, özellikle de gazeteciler; herkes uygulamayı indirip modeli kurarak hemen deneyebilir
      Artık gazetecilerin OpenAI'nin tüketici gelir projeksiyonları hakkında sorular sormaya başlaması gerekiyor gibi geliyor
      Yapay zekâya karşı epey şüpheciyim ama bilgili bir şüpheci olmaya çalıştığım için yerel modellerle ajan görevleri ve CAD-to-image üretimini biraz denedim; Gemma 26B modelini oldukça beğendim
      Bunu buluta bağımlılık oluşturmadan temelleri öğrenmek ve OpenCode'a alışmak için kullanıyorum; ayrıca oldukça iyi kod yazıyor ve kendi istediğim hızda öğrenmeme yardımcı oluyor
      Bu 12B model tanıtıldığı kadar bile olsa, hatta bunun yarısına yaklaşsa bile, en azından kısa vadede tüketiciye yönelik bulut iş modeli hakkında soru işaretleri yaratır
      Bu uygulamanın MTP drafter kullanıp kullanmadığı belli değil; Gemma'da henüz doğrudan çalıştıramadım ama Qwen 3.6'nın yerleşik MTP desteği LM Studio'da harikaydı
    • 12B ise 8 bit/parametrede 12GB eder ve neredeyse kayıpsızdır; 4 bit/parametrede ise 6GB olur ve bu genelde “oldukça yakın” kabul edilir
      Kuantizasyona fazla takılmadan önce temel model performansının ne kadar olduğuna bakmak gerekir
  • Artık kapalı döngü oyununa giriyoruz. Google kendi modellerini hızlandırmak için başkasına ihtiyaç duymuyor ve bu neredeyse ana işi sayılır
    Bu tür verimlilik artışlarını geliştirmeye devam etmeleri hem şaşırtıcı hem de değil. Silikon ve CPU mimarilerindeki ilerleme gibi, sürekli küçülüp güçleniyor; yapay zekânın da zamanla 100 kat daha verimli olacağını düşünüyorum
    Bir noktada elbette sınırlar olacaktır ama önümüzdeki 30 yılın, geçen 30 yıldan daha fazla ilerleme getirmesi muhtemel; gen düzenlemenin yaşlanan hücreleri ve organları onardığı, kanseri tedavi ettiği, Blade Runner benzeri futuristik bir dünyada yaşayabiliriz

Bizim yaşamımızdan sonra insanlar istikrarlı biçimde 125 yaşına kadar hareket kabiliyetini koruyarak yaşayacak gibi görünüyor; sonunda 1000 yıllık ömrü bile düşünmeye başlayacağız gibi.
30 yıl öncesine bakıp 30 yıl sonrasını düşününce, akıl almaz derecede değişmiş olacak gibi. Tanrı bizi korusun.

  • Şu an kesinlikle ilginç bir dönem ama en ileri gelişmeler açısından bakınca hâlâ toplanabilecek çok sayıda alçakta duran meyve var.
    Ancak az sayıdaki parametreye sığdırılabilecek “bilgi”nin bir tabanı var.
    Radyo, havacılık, hatta mikro bilgisayarların ilk dönemleri de herhalde böyle hissettiriyordu.

  • Ömür optimizasyonunu kariyer ya da hobilerin önüne koyan yolu seçtim. Geleceği görmek istiyorum ve bu AI akışı gerçekten çok ilginç.

  • Hayır, öyle değil.
    Büyük modeller hâlâ çok daha ileride ve Gemma 31B bile genel olarak 12B'den daha iyi, ama büyük modellere yaklaştığını sanmamak lazım.
    Optimizasyon alanı kesinlikle var, ancak karmaşık işlerde doğruluk için eğitim sırasında yakalanıp çıkarım sırasında takip edilebilen küçük ve görünür gradyanlar gerekiyor.
    Örneğin kod yazmamasını söyleyip bir kodlama sorusu sorarsanız Gemma hâlâ kod yazar, ama Gemini ya da Claude o nüansı yakalayıp talimatı daha iyi izler.

  • Google'ın açık model yayımlamasının ticari gerekçesini merak ediyorum. Böyle bir açıklığa minnettarım ama kâr amaçlı bir şirket olarak bunun büyük resme nasıl oturduğunu anlamak istiyorum.
    Rakiplerin, kendi geliştirdiği yeni teknolojinin üstüne çıkmasına yardım ediyor olmuyor mu?
    Bunun sadece iyi niyet ya da pazarlama mı olduğunu, yoksa benim kaçırdığım bir strateji mi bulunduğunu merak ediyorum.

    • Frontier laboratuvarlarının çıkarımda %80 brüt marj alabilmesinin büyük nedeni, frontier modeller gibi kıt bir kaynağı ellerinde tutmaları.
      Çıkarım yeterince popüler ve değerli hâle gelip bu şirketler milyarlarca dolar kâr ederse, o kârla Google ile müşterileri arasını kesen alternatif ürünler ve platformlar kurabilirler.
      Google zaten dünyanın en büyük ölçekli %80 brüt marjlı işine sahip ve herkes bunun bir kısmını istiyor.
      Frontier çıkarımı maliyete yakın sunup, frontier altı modelleri açık kaynak yaparak modelleri emtialaştırırsa, frontier laboratuvarlarının çıkarımda sürekli yüksek brüt marj üretmesi zorlaşır.
      Bu stratejik bir hamle.
    • Bu model kendi ticari gelir getiren ürünlerinin yerini almaz, ama geliştirme faaliyetlerini mümkün kılar ve bu modelle başlayıp biraz daha fazlasını isteyen şirketlerle konuşmanın kapısını açar.
      Şu anda benim şirketim de birçok platform ürününe tam ağırlık vermiş durumda ve Microsoft da dün hedefinin “Unmetered intelligence” olduğunu söyledi.
      Küçük yerel modellerin mümkün kıldığı çok şey var ve bunlar başka katmanlarda gelir üreten yığının bir parçası oluyor.
    • Android ve Chrome için cihaz üzerinde yapay zeka özellikleri gerekiyor. Google bu ağırlıkları sunucu tarafı makine öğreniminde yaptığı gibi kilitli tutamaz.
      Nasıl olsa birileri ağırlıkları çıkaracaktır; bu yüzden doğrudan açık kaynak olarak yayımlayıp resmileştirmek daha kolay.
    • Google, AI alanındaki az sayıdaki dikey entegre seçenekten biri. Veri, modeller, bulut hizmetleri, düşük seviye silikon (TPU), iç kullanım, tüketici kullanımı, B2B kullanımı ve dağıtım kanalları (tarayıcı ve mobil) elinde.
      AI benimsenmesi arttıkça bununla birlikte yükselir ve insanlar Google çözümlerini seçtiğinde daha da avantajlı olur.
      Google modellerine gönderilen her token, ücretsiz ya da ücretli olsun, rakiplerin en ileri seviyeyi korumak için devasa para harcamasına neden olan bir baskı unsurudur.
    • Bir AI laboratuvarıysanız, bu alanda bir araştırma ekibinizin olmasını istememeniz mümkün değil. Çünkü burada en kolay şekilde yineleme yapıp iyileştirmeler üretebilir, sonra bunları daha büyük frontier modellerine yansıtabilirsiniz.
      Mesele modeli yayımlayıp yayımlamamak ya da sadece saf Ar-Ge için kullanmak.
      Başka yerler de benzer kalitede modeller yayımladığı için bu akıma katılmanın kendi ayağına kurşun sıkmak olduğunu düşünmek zor.
      Ek öz-yamyamlaştırma fiilen sıfıra yakın ve itibari kazanç muhtemelen buna değer.
  • Görüntü işleme berbat. Qwen 3.5 0.8B ile çeşitli testler yaptım; boyutu sadece %7 olmasına rağmen Qwen her seferinde kazandı ve Gemma çoğu kez tamamen yanlış yaptı.
    Üzerinde “This is a test” yazan basit bir görsel verdim; 6 dakika boyunca analiz etmeye çalışıp başarısız oldu, Qwen 3.5 0.8B ise 1 saniyeden kısa sürede kendinden emin biçimde doğru bildi.
    Elimdeki Q6 kuantizasyonu bozuk olabilir ya da LM Studio sorunu olabilir, ama her iki durumda da 0.8B'nin performansı kıyaslandığında şaşırtıcı.

    • Google, Alibaba'dan daha fazla ya da daha güçlü guardrail ekleyip küçük modeli şaşırtıyor gibi görünüyor.
      Gemma3 modelinde de görselde teşhircilik ya da cinsel sahne var diyerek açıklamayı reddettiği çok oluyordu ve bu davranışın mantığını anlayamamıştım.
    • Gemma modellerinin görsel görevlerde Qwen'den hep çok daha kötü olduğunu düşündüm; yeni bir durum değil.
  • Mimari değişikliklerden bağımsız olarak, Gemma4 ön eğitimli model serisinde 4B ile 26B arasının neden tuhaf biçimde boş olduğuna dair bir yanıt gibi görünüyor.
    Bağlam payı da bırakıp 16GB VRAM'e rahatça sığan bir model memnuniyet verici bir yükseltme.

  • Multimedya hariç bunun, prismml'in qwen2.5 tabanlı 1.5 bit modelinden ne kadar daha iyi olduğunu merak ediyorum.

  • Bu tür küçük modellerin kullanım örneklerini merak ediyorum. Bu ölçekte bir modeli günlük olarak kullanan biri gerçek deneyimini paylaşabilir mi?

    • Bodrumdaki Linux makinede vLLM çalıştırıp Tailscale ile bağlanarak küçük modelleri çeşitli işlerde kullanıyorum.
      Taranmış belgeleri biçimli metne dönüştürmek, görsel başlığı/açıklaması ve hedefe uygunluk sınıflandırması yapmak (spam önleme dahil), belgeleri ilgili Wikipedia sayfalarıyla eşleştirip etiketlemek gibi işler.
      Bunları frontier modeller gibi kullanmıyorum; her promptun tek ve net bir hedefi olacak şekilde mikro görevlere bölüyorum.
      Tüm akışın çalışması için epey yapıştırıcı kod da kullanıyorum ve bu işler LLM'lerden önce de yaptığım şeylerdi.
      LLM'ler sayesinde karmaşık kodu azaltıp modele eklemeler yaparak daha iyi sonuçlar alabildim.
      Yerel model kullanma nedenim maliyet ve kontrol. Zaten iş istasyonum ve GPU'm vardı; işletim maliyeti sadece elektrik.
      OpenAI ve Google'ın kapalı modellerini de kullandım ama araçlarımın dayandığı model emekliye ayrılınca sarsıldığım oldu. Ağırlıkları yerelde saklayınca böyle bir endişe kalmıyor.
    • Kendi yaptığım dikte uygulamasında yerel bir modelle metni parlatıyor ve dilbilgisini düzeltiyorum. Yapması çok kolaydı; şimdi toplantı notlarını yakalayıp özetlemeye kadar genişletiyorum ve her şeyi tamamen cihaz üzerinde işliyorum.
      Kısa süre önce ekran görüntüsüne bakıp dosya içeriğine göre dosya adını değiştiren küçük bir uygulama da gördüm.
      Bunun gibi birçok küçük örnek var ve pek çok kullanım senaryosunda frontier modellere hiç ihtiyaç yok.
  • Gemma’yı birkaç yıllık çevrimiçi yazı inceleme ve sınıflandırma işlerinde kullandım. Katkı verdiğim açık kaynak proje forumları, HN, Reddit vb. yerlerde yazdığım yaklaşık 5 milyon kelimeyi kapsıyordu ve yazılar bana ait olduğu için veri kaynağı etiği konusunda endişe duymadan LoRA eğitimi de denedim
    Şu anda belirli bir sektöre yönelik web araması ve veri çıkarımı için kullanıyorum
    Verilen bir şehirde o sektördeki işletmeleri bulacak, web sitelerini okuyacak, adres ve telefon numarası gibi bilgileri çıkaracak, yinelenenleri kaldıracak ve hatta başka kaynaklarla çapraz doğrulama yapacak kadar yeterince akıllı
    Gemma 4, Gemini 2.5 Flash’tan daha iyi ya da en azından daha incelikli değerlendirmeler yaptı ve yeni Gemini 3.5 Flash çok iyi ama gerçekçi olmayacak kadar pahalı
    Çok yüksek hız gerekmiyorsa, kendi barındırdığım Gemma 4 birçok görevde öne çıkıyor
    Qwen 3.6 27B de boyutuna göre güvenlik hatalarını bulmada şaşırtıcı derecede iyi. Daha büyük birkaç modeli geçiyor ve Gemini Pro 3.1’e yakın, ama Gemini 3.5 Flash beklenmedik şekilde belirgin biçimde daha iyi
    Yalnızca elektrik masrafı var; elektriğim ucuz ve %100 yenilenebilir, bu yüzden barındırılan modellere göre daha geniş kullanım mümkün
    Yine de akıllıca para harcamak, sağlayıcıların sübvansiyon gibi ucuza sunduğu tokenları hâlâ satın almak yönünde
    30GB üstü modelleri çalıştıracak donanım almak yerine Claude veya Codex’in 100 dolarlık aboneliğiyle en iyi modelleri ciddi indirimli fiyatla kullanmak şu anda daha avantajlı
    Otomasyon API’si gerekiyorsa, DeepSeek/MiMo Anthropic veya OpenAI’nin en iyi modellerinden bir ya da iki büyüklük mertebesi daha ucuz
    İki çıkarım makinesine yaklaşık 4000 dolar harcadım; bu parayla bu tür küçük modeller için birkaç yıllık token alınabilir
    Ama donanımla uğraşmayı seviyorum, bu kendi başına bir ödül; bir kısmını geri çıkarabilirsem bu da bonus olur
    Büyük sağlayıcılar sübvansiyonlu tokenlarla para yakmayı bırakıp tam ücretlendirmeye geçmeye çalışırsa hesap değişebilir ve RAM fiyatları 2-3 kat artmadan önce ekipman almış olmak şans sayılabilir
    Teknolojiyi öğrenmek ya da bizzat eğitim denemeleri yapmak gibi bir niyetiniz yoksa, çoğu durumda yerelde çalıştırmayı denememek muhtemelen daha iyi

    • Küçük modellerin belirli görevler için çok iyi bir nişi var. Geliştirdiğim masaüstü uygulamasının belge işleme tarafında ince ayar yapılmış bir Phi-4 modeli kullanıyorum; bu model bundan da küçük ve VRAM yerine yaklaşık 3.5GB RAM’e sığıyor
      Yerel model kullanımı için çok somut bir fikriniz varsa ekran kartı ya da NPU olmadan da iyi çalışacak şekilde kurabilirsiniz
      Ama kullanım biçimini son derece sınırlamanız gerekiyor. Genel amaçlı bir sohbet botu olarak iyi değil; yerel LLM’leri sevsem de o kullanımda barındırılan en yeni modelleri tercih ederim
    • Bu modeli bilmiyorum ama bir üstteki 31B’yi OpenCode’da ajan tarzı kodlama yardımcısı olarak kullanıyorum
      Sonnet’e verilebilecek kadar kolay işlerse Gemma 4’e de veriyorum ve çok iyi iş çıkarıyor
      Olumsuz anlamda şaşırmaktan çok olumlu anlamda şaşırdığım oluyor
      Gemma 4’ün başarısız olup Opus 4.7’ye geçtiğim, ama Opus’un da başarısız olduğu durumlarla da az karşılaşmıyorum
  • Oldukça iyi bir güncelleme. Ama demo videosu biraz komik
    Test eden kişi modelden sürüm notlarını madde işaretlerine dönüştürmesini istiyor ve model bunu iyi yapıyor
    Ardından bu içerikten bir e-posta taslağı oluşturmasını isteyince, talep edilmediği hâlde madde işaretlerini paragrafa çevirip az önce iyi yaptığı şeyi geri alıyor
    E-postalarda madde işareti kullanmama gibi bir görgü kuralı mı var bilmiyorum

  • Almanca ile ilgili benchmark’ı hızlıca dağıtıp kontrol ettim. CohereLabs/include-base-44 Almanca özel sonucunda Gemma 4 12B yaklaşık 0.618 alıyor
    Gemma 4 26B(A4B MoE) 0.647, Qwen 3 14B 0.621, Gemma 4 12B 0.618, Ministral 14B 2512 0.604, Gemma 3 12B ise 0.547
    Qwen 3 14B ile Gemma 4 12B arasındaki fark rastgele dalgalanma aralığında; tekrar çalıştırmalarda birebir aynı puanın çıktığı da oldu
    Bir sonraki basamak olan Gemma 4 31B bu benchmark’ta 0.676 alıyor; muhakemeye izin verilen Qwen 3 14B de 0.676 veriyor
    Yarın hile önleme benchmark’ını da çalıştırıp Qwen’in hâlâ önde olup olmadığını kontrol etmeyi planlıyorum