4 puan yazan GN⁺ 2025-08-15 | 3 yorum | WhatsApp'ta paylaş
  • Gemma 3 270M, 270 milyon parametreli hafif bir model olup güçlü komut takip etme yeteneği ve metin yapılandırma özellikleri sunuyor
  • 256k tokenlik geniş kelime dağarcığı sayesinde nadir token’ları işlemede güçlü; belirli alanlara ve dillere uyarlanmış fine-tuning tabanlı bir model olarak tasarlandı
  • Pixel 9 Pro SoC üzerinde INT4 kuantize modelin 25 sohbet boyunca yalnızca %0,75 pil tüketmesi gibi etkileyici bir enerji verimliliği sunuyor
  • Büyük genel amaçlı modeller yerine çok sayıda küçük ve uzmanlaşmış model çalıştırarak hız, maliyet ve doğruluğu aynı anda sağlama stratejisine uygun
  • Cihaz üzerinde çalışma, hızlı yinelemeli denemeler ve düşük maliyetli işletim gerektiren sabit görevler için optimize edildiğinden çeşitli yapay zeka uygulamaları geliştirmeyi mümkün kılıyor

Gemma 3 270M’ye genel bakış

  • Google’ın Gemma 3 ve Gemma 3 QAT’in ardından yeni duyurduğu küçük, uzmanlaşmış fine-tuning modeli
  • 270M parametrenin 170 milyonu embedding’e, 100 milyonu ise transformer bloklarına ayrılmış durumda
  • 256k token içeren geniş kelime dağarcığıyla nadir ve özel token’ları işleyebiliyor
  • Hem ön eğitimli (pretrained) hem de komut ayarlı (instruction-tuned) sürümler sunuluyor

Öne çıkan özellikler

  • Kompakt ama güçlü yapı: Belirli alanlara/dillere özel fine-tuning için ideal
  • Aşırı enerji verimliliği: Pixel 9 Pro SoC’de INT4 model, 25 sohbet için yalnızca %0,75 pil kullanıyor
  • Komut takip yeteneği: Genel amaçlı sohbetten çok görev odaklı kullanıma optimize edildi; temel durumda bile komutları yerine getirebiliyor
  • Kuantizasyon desteği (QAT): INT4 hassasiyette performans kaybını en aza indiriyor, kaynak kısıtlı ortamlar için uygun

‘Doğru işe doğru araç’ felsefesi

  • Yapay zeka tasarımında verimlilik odaklı yaklaşımı vurguluyor
  • Küçük modellerle hızlı yanıt ve düşük maliyetli işletim mümkün
  • Metin sınıflandırma, veri çıkarımı gibi net tanımlı görevlerde uzmanlaştırıldığında yüksek performans gösteriyor
Reklam

Gerçek kullanım örnekleri

  • Adaptive ML, SK Telecom’un çok dilli içerik moderasyonu için Gemma 3 4B modelini fine-tuning uygulayarak büyük ölçekli özel modellere kıyasla daha iyi performans elde etti
  • 270M model, bu yaklaşımı daha küçük ölçekte genişleterek uzmanlaşmış görev grupları için çok sayıda ‘uzman modelin’ üretilmesini mümkün kılıyor
  • Hugging Face’in web tabanlı Bedtime Story Generator uygulaması, Gemma 3 270M sayesinde çevrimdışı ya da web tarayıcısı içinde gerçek zamanlı içerik üretebiliyor

Uygun kullanım senaryoları

  • Net ve yüksek hacimli görev işleme: Duygu analizi, varlık çıkarımı, sorgu yönlendirme, metin dönüştürme, yaratıcı üretim, uyumluluk denetimi gibi alanlara özel görevler için ideal
  • En iyi ekonomi ve hız: Hafif altyapıda veya cihaz üzerinde çok düşük maliyetle çalıştırılabilir, anında yanıt verebilir
  • Hızlı geliştirme ve dağıtım: Model boyutu küçük olduğundan fine-tuning denemeleri ve optimizasyon/test süreçleri saatler içinde tamamlanabilir
  • Gizlilik koruması: Buluta veri göndermeden cihaz üzerinde işleme yapılabilir, bu da hassas bilgileri korumada avantaj sağlar
  • Özelleştirilmiş uzman modellerin işletimi: Bütçe baskısı olmadan farklı amaçlara yönelik modeller aynı anda kurulup dağıtılabilir

Fine-tuning ve dağıtım

  • Model; Hugging Face, Ollama, Kaggle, LM Studio, Docker gibi platformlardan indirilebiliyor
  • Vertex AI, llama.cpp, Gemma.cpp, LiteRT, Keras, MLX gibi çeşitli çıkarım araçlarını destekliyor
  • Hugging Face, UnSloth ve JAX tabanlı tam fine-tuning kılavuzları sunuluyor
  • Yerel ortamdan Google Cloud Run’a kadar esnek dağıtım mümkün

Sonuç

  • Gemma 3 270M, küçük ama güçlü bir temel model olarak belirli görevlere optimize edilmiş yapay zeka çözümlerinin geliştirilmesini hızlandırıyor
  • Düşük maliyet, yüksek verimlilik ve hızlı dağıtımı aynı anda isteyen geliştiriciler için ideal bir seçenek

3 yorum

 
kaydash 2025-08-16

Bunu .task dosyası olarak hazırlasalar Android akıllı telefonda doya doya denerdim..

 
kaydash 2025-08-17

Birinin hazırladığı .task (web olmayan) dosyası vardı, ben de mobilden denedim; kısa ve hızlı şekilde gayet iyi yanıt veriyor.

Ama bana göre qwen3:0.6b (tabii bu muhtemelen daha ağırdır) daha iyi iş çıkarıyor.

 
GN⁺ 2025-08-15
Hacker News görüşleri
  • Bu modelleri harika bir ekiple birlikte geliştirdim ve açık model ekosistemi genelinde indirilebildikleri için herkesin en az bir kez denemesini tavsiye ederim. Boyutlarına kıyasla güçlü performans sunmaları hedefiyle tasarladık ve kullanım senaryosuna göre herkesin kolayca fine-tune edebilmesini sağladık. Küçük model boyutu sayesinde çeşitli donanımlarda çalışabiliyorlar ve fine-tune maliyeti de oldukça düşük. Ücretsiz Colab üzerinde 5 dakikadan kısa sürede bizzat fine-tune etmeyi deneyebilirsiniz. Gemma boyutu seçimi için rehber olarak, benim kaydettiğim 1b ~ 27b ve yakın zamanda eklenen 270m sürümünü tanıtan videoya bakabilirsiniz YouTube bağlantısı. Google'da araştırmacı olarak çalışıyorum ama buradaki görüşlerin tamamı bana ait. Teknik sorulara odaklanarak mümkün olduğunca çok şey paylaşmayı planlıyorum

    • Gemma 3 modellerinin gerçekten harika olduğunu düşünüyorum. Norveççe üretimi de fena değil ve instruction following de çoğu durumda iyi. Ama sansürle ilgili gibi görünen bir sorun var; özellikle ciddi konularda talimata aykırı biçimde fazla muhafazakar davranıyor. Örneğin oyuncuların birbirini öldürebildiği bir oyunda sohbet mesajlarının gerçek tehdit mi yoksa oyun içi tehdit mi olduğunu sınıflandırmasını istediğimde iyi çalışmıyor. Oyun içi tehdit olup olmadığı belirsizse oyunla ilgili olarak sınıflandırmasını söylesem bile güvenlik tarafına kayma eğilimi gösteriyor. Hatta bazen yardım hattı bile öneriyor. Muhtemelen modelin güvenli davranması için yapılan eğitimin etkisi, ama sebebini biliyor musunuz merak ediyorum

    • BSidesSF'de tanıştığım harika bir Google mühendisi aklıma geldi. Sorularıma içtenlikle cevap veren biriydi ve videoya tıklayınca doğrudan siz çıktınız! Benim için çok ilham verici bir andı, teşekkürler

    • Fine-tune edilmiş sürümlerin gerçek kullanım örnekleri varsa paylaşabilir misiniz merak ediyorum. Sadece açıklama bile olur, ama demo ya da hatta model weight'lerini indirebilirsek (GGUF formatında olursa daha da iyi) harika olur

    • Bu gerçekten çok etkileyici bir iş. 270M parametre seviyesindeki bir modelin bu kadar verimli çıkması nadir görülür. Mimari tercihleri de yeni ve ilginç. Daha ayrıntılı eğitim bilgileri paylaşmanız mümkün mü diye merak ediyorum. Embedding parametreleri 170M iken, eğitim sırasında embedding çökmesi olmadan embedding matrisini nasıl kararlı tuttunuz merak ediyorum. Parametre bölüşümü (170m/100m) üzerine dahili deneyler veya performans trade-off'ları hakkında daha fazla bilgi veren materyal var mı bilmek isterim. Tüm model serisi için teşekkürler

    • Gerçekten etkileyici bir çalışma. Bu model, özetleme ya da otomatik tamamlama gibi tek seferlik işlerde çok iyi hissettiriyor. Çıkış gününde quantized aware training sürümünü de yayımlamanız çok iyi olmuş; sayede model daha da küçülmüş

  • 270M-F16 modeliyle yaptığım sohbet etkileyiciydi. "Dünyadaki en yüksek ikinci dağ hangisi?" diye sordum, sürekli "Everest" diye cevap verdi. "Peki birinci hangisi?" sorusuna da "Everest" dedi. "Üçüncü?" "Dördüncü?" hepsine "Everest" diye yanıt verdi. "Az önce en yüksek dağın Everest olduğunu söyledin" dediğimde "Doğru, mutluluk" gibi bir tepki verdi. İkinci en yüksek dağı sormaya devam ettiğimde de yalnızca "Everest" cevabını tekrarladı. Ancak sonunda "1'den 5'e dağ listesi" istediğimde 1. Everest, 2. K2, 3. Sahel, 4. Fuji, 5. McKinley diye cevap değiştirdi. "O zaman ikinci en yüksek dağ K2 değil mi?" desem de yine "Everest" demeye devam etti. Bu tür küçük modeller harika ama gerçekten bir çocukla konuşuyormuşsunuz gibi

    • Bu model yaklaşık 270M parametreye sahip; yani 1B'nin üçte biri kadar. Temelde biraz matris çarpımı yapmaktan ibaret olduğu için çok fazla bilgi, dilbilgisi ya da tutarlılık bekleyemezsiniz. 1B altındaki bu tür modeller belirli amaçlara optimize edilmiş uzman modellerdir. Örneğin müşteri yorumlarından bilgiyi JSON nesnesi olarak çıkarmak gibi, girdi metnini bir programın anlamlı şekilde kullanabileceği biçime dönüştürmek için uygundurlar. Bu tür modellerin iyi sonuç vermesi için beklediğiniz veri üzerinde oldukça agresif biçimde fine-tune edilmesi gerekir. Sonuçta 270MB'lık bir model fine-tune ile istediğiniz sonucu verebiliyorsa, neden 32GB'lık genel amaçlı bir model kullanasınız ki

    • Buna ek olarak, zaten baştan kusursuz olgusal doğruluk hedeflemiyorduk. Model boyutundan bağımsız olarak bu weight'ler zaten sabitlenmiş durumda. Tavsiye edeceğim şey, bir RAG sistemiyle bağlayıp dış bilgiye dayanmak ya da doğrudan yalnızca istediğiniz olguları içerecek şekilde fine-tune etmek. Yeni bilgiyi de hızlı öğreniyor

    • 270M modeli ansiklopedik bilgi testlerinde kullanmak, aşırı sıkıştırılmış bir JPG dosyasına bakıp "görüntü kalitesi bozuk" demek gibi

    • Prompt'a bakılırsa bilgi değerlendirmesi yapmaya çalışıyorsunuz, ama bu model o kullanım için uygun değil. Blog yazısında da belirtildiği gibi, "metin sınıflandırma veya veri çıkarımı gibi işlerde doğruluk, hız ve maliyet açısından üstün performans gösteriyor"

    • "Paris için 2 günlük gezi planı yap" isteğine cevaben, Paris'in görülecek yerleri, simge yapıları, müze gezileri, çeşitli yemek deneyimleri, Marais ve Latin Mahallesi yürüyüşleri, Orsay Müzesi ziyareti gibi ayrıntılı bir planı saat saat anlattı. Seyahat hazırlığı için faydalı ipuçlarını da özenle verdi

  • Bu model gerçekten çok eğlenceli. Yaklaşık 241MB gibi çok küçük bir boyutta, inanılmaz hızlı ve aynı zamanda neredeyse her şeyi özgürce "halüsinasyonla" uyduruyor. Örneğin "Bisiklete binen bir pelikanın SVG'sini oluştur" isteğine model bir şiir yazdı (ör. 'Bu bir kedi, büyük kanatlar ve mutlu bir kuyruk', 'Bisiklet ışığı parlak parlıyor', 'Macera için hazır' gibi). Birden fazla deneme sonucunu Gist olarak yükledim. İleride seçilmiş görevlerde kullanılabilecek faydalı çıktılar üreten fine-tune edilmiş modellerin gelmesini umuyorum

    • Şu denemede kahkahayı bastım. Şiir mi şarkı mı belli olmayan bir şey üretti, sonra her satırın SVG'ye nasıl yansıdığını açıkladı ve "Bu SVG kodu sahneyi net ve görsel olarak iletir" diye bitirdi

    • ollamas ggufs kullandığınızı gördüm. Varsayılan olarak Q4_0 quantization modeli geliyor ama gemma3:270m-it-bf16 kullanarak ya da unsloth ggufs'tan hf.co/unsloth/gemma-3-270m-it-GGUF:16 ile daha iyi sonuç alabilirsiniz

    • Bazen çok fazla işe yaramaz token da üretiyor ama gerçekten inanılmaz miktarda token saçıyor

    • 241MB indirme için 170'ten fazla disket gerekir

    • "Julius Caesar ne zaman doğdu?" sorusuna "Julius Caesar Roma'da doğdu" diye cevap verdi. Harika :D(Bunu küçümsemek için söylemiyorum, ehlileştirmek için daha fazla emek gerekeceğini kastediyorum)

  • Apple'ın da böyle modeller yapması gerektiğini düşünüyorum. Eğer amaç arama anlaşmalarını yapay zeka anlaşmalarıyla değiştirmek değilse, Apple'ın bu kadar görünmez olması çok tuhaf. Tim Cook "yakalamamız gereken bir fırsat" demişti ama son dönemdeki gidişata bakınca yönlerini kaybetmiş gibiler. Google'a helal olsun

    • Bu, HN'deki tüm LLM başlıklarında söylenen şey: LLM'lerin hâlâ aptal ve işe yaramaz olduğu söyleniyor. Buna katılmıyorum ama bugüne kadar hiçbir şirketin uzun vadede yatırım değerini yeterince kanıtlayan bir yapay zeka kullanım alanı bulamadığı da doğru. Apple her zaman pazara geç girse de (ör. MP3, akıllı telefon, akıllı saat) yenilikçi ürünlerle rakiplerini ezdi

    • GPT2 düzeyinde bir model zaten Apple otomatik tamamlama özelliğinde kullanılıyor ayrıntılar bağlantısı

    • Eğer "böyle" modelden kasıt SLM (küçük dil modeli) ise, Apple'ın zaten uzun zamandır bununla ilgili araştırma yaptığı doğru

    • Apple da yapıyor. Resmi dokümantasyon da var Foundation Models Doc. En güncel betayı kurarsanız API'yi doğrudan çağırabilirsiniz. Ayrıca neredeyse tüm cihazlara uygulanabilen model için fine-tune da resmi olarak destekleniyor ilgili doküman

    • Apple böyle modelleri yayımlamaz. Diğer yorumlardan da anlaşılacağı gibi şu anda performans yetersiz. Gerçek kullanımda uygun hızda token üretirken cihazı aşırı ısıtmayan ve saçma sapan şeyler söylemeyen bir model bulmak gerçekten zor (kendim birkaç tane denedim). Apple hiçbir zaman yarım yamalak ya da düşük cilalı ürünleri sevmez; gerekirse çıkışı erteler

  • Ben DistilBERT kullanarak wordpress yazılarını sınıflandırma işi yapıyorum. Veri sayısı 100 binden fazla ve fine-tune sonrası rapor çıkarmak da rahatlıkla mümkün. Dağılım dengeli olmasa bile bazı hilelerle bir ölçüde çözülebiliyor. Yakında bu modelle değiştirip performansı karşılaştıracağım; bir değişiklik olursa paylaşmayı planlıyorum

    • Belirli bir kullanım için fine-tune edecekseniz ModernBERT daha iyi bir temel model olabilir ModernBERT tanıtımı
  • İnsanların bu kadar küçük bir modeli gerçekten fine-tune edip prodüksiyonda kullandığı gerçekçi örnekler var mı merak ediyorum

    • RAG sistemleri için reranker olarak küçük bir model kullandığım oldu. Aday oluşturma (vektör arama + BM25), iş kuralları ve ACL filtrelerinden sonra kalan metin parçalarının sorguyla gerçekten alakalı olup olmadığını tiny bir modelle değerlendirip filtreliyorduk. Gerçek prodüksiyona girdi ama model context boyutları büyüdükçe fiyat ve kalite sorunları yüzünden o modül sonunda kaldırıldı. Yine de bir süre gerçekten kullanıldı

    • Bizim şirketimiz küçük bir modelle ön eleme yapıp, güven yüksekse ChatGPT ile doğrulama yaparak ölçekleniyor. Bu yöntemi dil tespiti için de denemeyi planlıyoruz. Mevcut açık kaynak ML modellerinin karışık dil / cümle uzunluğu / belirli alanlarda zayıf kaldığı oluyor (örneğin sadece İncil çevirileri üzerinde eğitilmiş olmaları gibi)

    • Nerede kullanılır emin değilim ama etiket üretimi için iş görebilir gibi. Bu boyuttaki encoder'lar bazen başka belirli görevlerde açık ara daha iyi bile olabiliyor

    • Doğru hatırlıyorsam Android'de (özellikle Pixel'de) cihaz üstü asistan gibi işlerde fine-tune edilmiş Gemma modelleri kullanılıyor

    • 9gag.com yorumları için

  • Son zamanlarda model optimizasyon yarışı çok kızıştı ve gereksiz dil/alan bilgisini çıkarırsak parametreleri ne kadar azaltabileceğimizi merak ediyordum. Örneğin sadece İngilizce desteklense, Çince ya da Avrupa dilleri çıkarılıp aynı parametre bütçesi içinde daha fazla görevin yapılması mümkün olur mu diye düşünüyordum

    • Bu soru, tam da bu modeli yaparken en çok kafa yorduğumuz noktaydı. "Ne kadar çok görevi ne kadar iyi yapmak istiyorsunuz?" sorusuna göre trade-off'lar ortaya çıkıyor. Farklı veri ve farklı eğitim stratejileri seçip performansı ölçmeniz gerekiyor. Hatta kendi görev kümeniz üzerinde modeli eğitip bu performans trade-off'larını değerlendirmenizi tavsiye ederim. Böyle denemelerle LLM'lerin yetenek değişimini doğrudan hissedebilirsiniz

    • Aslında bu o kadar basit değil. transfer learning konusuna bakmak faydalı olur

  • 2025'te yayımlanmış bir LLM'yi iPhone'umda BF16 tam hassasiyetle çalıştırabileceğimi gerçekten düşünmezdim. iPhone 16 Pro'da saniyede yaklaşık 80 token veriyor

    • Bu modeli iPhone'da tam olarak nasıl çalıştırdığınızı merak ediyorum
  • Habere bir ekleme olarak, Gemma 3 270M'nin tam IFEval skoru 51.2. Qwen 3 ise saçılım grafiğinde (0.6, 59.2) konumunda

  • Prompt seçiminin bu modelin performansını çok ciddi biçimde etkilediği belirtilmiş. NER veya POS etiketleme biraz hayal kırıklığı yarattı. Ama Hint-Avrupa dışı dillerden çeviri (ör. Tayca, Endonezce'den İngilizce'ye) şaşırtıcı derecede iyi çalıştı