5 puan yazan GN⁺ 2025-11-22 | 1 yorum | WhatsApp'ta paylaş
  • Olmo 3, yalnızca modelin nihai çıktısını değil, tüm geliştirme sürecini (model flow) da açık hale getirerek veri, kod ve checkpoint’lere kadar tam izlenebilirlik sunuyor
  • 7B ve 32B parametre ölçeğinde Base, Think, Instruct, RL Zero olmak üzere dört modelden oluşuyor; muhakeme, diyalog ve pekiştirmeli öğrenme gibi farklı araştırma amaçlarına uygun şekilde kullanılabiliyor
  • Dolma 3 ve Dolci veri kümelerine dayanarak web, kod, matematik ve bilim gibi alanlarda yaklaşık 9,3 trilyon token ölçeğinde şeffaf eğitim verisi yayımlanıyor
  • OlmoTrace aracıyla model çıktısının hangi eğitim verilerinden kaynaklandığı gerçek zamanlı olarak izlenebiliyor; bu da şeffaflık ve güvenilirliği güçlendiriyor
  • Tam açık kaynak yayımı sayesinde herkes modelin belirli bir aşamasına müdahale edebilir, değiştirebilir ve yeniden eğitebilir; böylece doğrulanabilir bir yapay zeka araştırma ekosistemi kuruluyor

Olmo 3 genel bakış

  • Olmo 3, Allen Institute for AI (Ai2) tarafından yayımlanan yeni nesil açık kaynak dil modeli ailesi ve temel özelliği, modelin tam geliştirme akışını (model flow) açık etmesi
    • Model akışı; veri toplama, ön işleme, eğitim, ince ayar ve pekiştirmeli öğrenme dahil tüm aşamaları kapsıyor
    • Bu sayede araştırmacılar ve geliştiriciler modelin iç çalışma prensiplerini analiz edip değiştirebiliyor
  • Olmo 3, 7B ve 32B parametre sürümleriyle sunuluyor ve dizüstü bilgisayarlardan araştırma kümelerine kadar farklı ortamlarda çalıştırılabiliyor

Başlıca model bileşenleri

  • Olmo 3-Base (7B, 32B)
    • Tamamen açık bir base model olarak kod, matematik ve okuduğunu anlama gibi çeşitli alanlarda üst düzey performans sunuyor
    • Qwen 2.5, Gemma 3 gibi aynı sınıftaki modellerle rekabet ediyor ve 65K token genişletilmiş bağlam desteği sağlıyor
  • Olmo 3-Think (7B, 32B)
    • Çok adımlı muhakeme problemleriyle eğitilmiş muhakeme odaklı model; RL araştırmaları ve uzun süreli düşünme deneyleri için uygun
    • 32B model, MATH, OMEGA, BigBenchHard gibi testlerde sınıfının en iyileri seviyesinde performans gösteriyor
  • Olmo 3-Instruct (7B)
    • Diyalog, komut yerine getirme ve araç kullanımına optimize edilmiş model; Qwen 2.5, Gemma 3 ve Llama 3.1 ile aynı seviyede veya daha iyi
  • Olmo 3-RL Zero (7B)
    • Pekiştirmeli öğrenme algoritmalarını değerlendirmek için tamamen açık bir yol sunuyor ve matematik, kod, talimat izleme gibi 4 alan checkpoint’i içeriyor

Performans ve benchmark’lar

  • Olmo 3-Base 32B, Marin 32B, Apertus 70B gibi tamamen açık modelleri geride bırakıyor
    • GSM8k (matematik) 80.5 puan, HumanEval (kod) 66.5 puan gibi önemli benchmark’larda güçlü sonuçlar veriyor
  • Olmo 3-Think 32B, Qwen 3 32B ile benzer ya da yakın performans gösteriyor ve HumanEvalPlus, IFEval gibi testlerde en yüksek puanları kaydediyor
  • Olmo 3-Instruct 7B, güvenlik (Safety) kategorisinde 87.3 puanla karşılaştırılan modeller arasında en yüksek skoru alıyor

Mimari ve eğitim süreci

  • Yalnızca decoder kullanan transformer mimarisi benimsenmiş; 3 aşamalı ön eğitim (temel → ara → uzun bağlam) ve 3 aşamalı son eğitimden (SFT → DPO → RLVR) oluşuyor
  • Her aşamaya ait checkpoint’ler açık olarak yayımlanıyor; araştırmacılar istedikleri noktada modeli fork’layabiliyor veya deney yapabiliyor
  • Dolma 3 (yaklaşık 9,3 trilyon token) ve Dolci veri kümeleriyle eğitim sürecinin tamamında veri şeffaflığı sağlanıyor
    • Ayrıntılı bileşenler arasında Dolma 3 Mix (6 trilyon token), Dolmino (100B token), Longmino (50B token) yer alıyor
    • Dolci, SFT, DPO ve RLVR aşamalarının her biri için ayrı veri karışımları sunuyor

Verimli eğitim altyapısı

  • En fazla 1.024 adet H100 GPU ile eğitim yapılıyor; 7B model için işleme hızı 7.7K token/saniye
  • in-flight weight updates, continuous batching, threading iyileştirmeleri gibi tekniklerle RL eğitim verimliliği 4 kat artırılmış
  • Olmo 3’ün 32B modeli, performans ve erişilebilirlik arasında denge noktası olarak konumlandırılmış; böylece araştırmacılar doğrudan ince ayar yapabiliyor

Şeffaflık ve araç ekosistemi

  • OlmoTrace ile model çıktısı ve eğitim verisi arasındaki bağlantı görsel olarak izlenebiliyor
  • Tüm veri kümeleri ve toolchain’ler açık kaynak olarak yayımlanıyor
    • Bunlar arasında Olmo-core (dağıtık eğitim çatısı), Open Instruct (son eğitim pipeline’ı), datamap-rs (veri temizleme), duplodocus (yinelenen verileri kaldırma), OLMES (değerlendirme araç takımı) yer alıyor
  • Araştırmacılar, modelin ara muhakeme adımlarını ve başarısız olduğu noktaları analiz ederek model davranışının nedenlerini anlayabiliyor

Kullanım alanları ve önemi

  • Olmo 3, araştırma, eğitim ve uygulama geliştirme gibi alanlarda güvenilir yapay zeka sistemleri kurulmasını destekliyor
  • Modelin tüm aşamalarının açık olması, yeniden üretilebilirliği, doğrulanabilirliği ve ortak araştırmayı teşvik ediyor
  • Ai2, “gerçek açık kaynak yapay zeka, yalnızca erişim değil; güven, sorumluluk ve ortak gelişim anlamına gelir” diyor
  • Olmo 3, tam şeffaflık sayesinde herkesin yapay zekanın iç yapısını anlayıp iyileştirebildiği yeni bir açık araştırma paradigması öneriyor

1 yorum

 
GN⁺ 2025-11-22
Hacker News yorumları
  • Bence yapay zekanın geleceği, tamamen izlenebilir akıl yürütme adımlarına sahip sistemlerdir.
    Bu tür bir şeffaflık olmadan genel kamuoyunun büyük LLM tabanlı sistemleri anlaması veya kontrol etmesi için bir yol olmayacağını düşünüyorum.
    Sonunda ya Big Tech, ya otoriterler ya da yapay zekanın kendisi keyfi davranma riski taşıyor.
    • Bu yüzden birçok insanın bu yaklaşımın kendisini ortadan kaldırmak istemesi ilginç.
    • En azından her yapay zeka modelinin hangi eğitim verilerini kullandığını bilmeliyiz.
      Üçüncü taraf bir kurumun denetim yapıp şeffaflık raporları sunacağı bir yapıya ihtiyaç olduğunu düşünüyorum.
    • Şeffaflık iyi ama yanıtları ayarlanabilir hale getirmek büyük bir UI/UX meselesi.
      Umarım bu tür denemeler sürer.
  • “Açık kaynak yapay zeka” terimi pazarlama tarafından zaten çarpıtılmış gibi geliyor.
    Sırf ağırlıkları yayımlamak buna açık kaynak demek için yeterli değil; bu yanlış bir uygulama.
    Gerçek açık kaynak modeller için “şeffaf model” gibi yeni bir ada ihtiyaç var.
  • Zürafanın koşer (kosher) olup olmadığını sordum, model “hayır” dedi.
    Ama benim yorumuma ve Talmud hukukuna göre zürafa uygundur; GPT5.1 de benim yorumuma katıldı.
    • Modelin bu tür dini ayrıntıları ezberliyor olması garip.
      Bu tür bilgiler RAG gibi arama tabanlı bir sistemden getirilmeli.
      “Bilmiyorum” diyen bir model daha kullanışlı olabilir.
    • Acaba bunu birkaç kez yeniden denediniz mi, temperature ve top_p değerlerini nasıl ayarladınız merak ediyorum.
    • Aslında bu tür soruların artık kamusal fayda ölçütü olamayacak olması ilginç.
  • Son dönemde ana iş akışımı OpenAI’den yerel modellere taşıyorum.
    Küçük modeller uç durumları zorla ele almaya çalışma eğiliminde.
    Bu yüzden onlara bir “edge_case” çıkışı sağlarsanız çok daha iyi çalışıyorlar.
    Keşke bu tür prompt hacking ipuçlarını toplayan merkezi bir depo olsa.
    • “edge_case” yapılandırılmış çıktı şemasındaki bir anahtar (key) mı, merak ettim.
    • Open WebUI ya da LibreChat gibi bir arayüz mü kullanıyorsunuz, yoksa doğrudan mı çağırıyorsunuz merak ediyorum.
  • AllenAI Playground üzerinde “Show OlmoTrace”e bastım.
    Model yanıtıyla eşleşen eğitim verisi belgelerini gösterdiğini söylüyor.
    Ama pratikte yalnızca basit N-gram eşleşmeleri buluyor gibi, bu yüzden buna izlenebilirlik demek zor.
    Sonuçların soruyla alakasız belgelerden geldiği durumlar da oldu.
    N-gram açıklaması
    • Bir Olmo araştırmacısı olarak söyleyeyim: OlmoTrace’in amacı yanıtı belirli bir belgeye atfetmek değil.
      Bunun yerine modelin hangi eğitim verisi parçalarından etkilendiğini göstermeyi amaçlıyor.
      Örneğin farklı modellerin neden aynı şakayı ya da sayıları tekrar ettiğini bununla izleyebilirsiniz.
  • Model boyutu için 7B, 20B ve 32B’den oluşan üçlü bir ürün dizisinin ideal olduğunu düşünüyorum.
    7B, 8GB GPU’ya; 32B, 24GB GPU’ya uyuyor ve 20B sınıfı modeller de 16GB GPU’ya tam denk geliyor.
    • Elbette bu mimariye bağlı.
      Hâlâ en uygun boyutu bulmak için deneyler sürüyor.
      Şahsen GPU’larda ölçeklenebilir VRAM olmasını isterdim.
  • 7B modele “hi, who are u” diye sordum, içten içe cümleyi analiz ederken takılıp kaldı.
    Muhtemelen bir OpenWebUI hatası gibi görünüyor.
    • Ne zaman yeni bir model çıksa, onu desteklemeyen yazılımlarda test eden çok kişi oluyor.
      GPT-OSS’ta da böyleydi, bu OLMo için de benzer bir durum tekrar edecek gibi.
    • Ben de doğrudan playground üzerinde denedim.
      7B “Hi! I'm Olmo 3…” diye, 32B ise “Hi! I'm Olmo…” diye yanıt veriyor.
    • Ai2’nin post-training ekibinde bir araştırmacıyım; nerede test ettiğinizi merak ettim.
    • Bu bana “good morning” ifadesini aşırı analiz eden şakayı hatırlattı.
      Sonunda basit bir selam bile felsefi bir yorumla bitiyormuş gibi geliyor.
    • Belki bir completion token sınırına takılmışsınızdır; kontrol etmenizi öneririm.
  • Dolma3 veri setine Hugging Face üzerinde baktım.
    Daha ilk satırdan yetişkin site metni içermesine şaşırdım.
    • Muhtemelen bu hâlâ kürasyon öncesi bir aşama.
      Tüm boru hattını yayımlamak istiyorsanız bu tür verileri de dahil etmeniz gerekir.
      Yine de önizlemede böyle kısımların hemen görünmemesi için bir ayar yapılabilirdi.
    • Sonuçta erotik kurgu, bu tür modellerin başlıca kullanım alanlarından biri zaten.
  • Küçük modellerin gerçek kullanım alanlarını merak ediyorum.
    Çoğu cihaz üstü çıkarım için gibi görünüyor; başka örnekler var mı?
    • Ai2’de bir araştırmacı olarak söyleyeyim, 7B tüketici GPU’ları için yerel model, 32B ise çok daha çeşitli uygulamalara uygun.
      Birçok şirket Qwen 3 fine-tune modeli kullanmaktan Olmo 32B’ye geçebilir.
    • Ekibimiz 7B modeli alan özelinde sınıflandırıcı olarak fine-tune ediyor.
      Performansı küçük non-LLM modellerden daha iyiydi.
    • Ben Qwen3-30B-VL’yi sürekli VRAM’de hazır tutuyorum.
      Basit bir Google aramasından daha hızlı ve terminal komutları, dosya gezintisi ve not düzenleme işlerini de hallediyor.
      Hızı (90tok/s) ve düşük gecikmesi sayesinde ufak işleri çok daha verimli biçimde yapabiliyorum.
      Buna karşılık Sonnet 4.5 yavaş ve hafif hatalı olduğundan gerçek kullanımda verimsiz kalıyor.
  • Qwen3-30B-VL günlük kullanım için neredeyse kusursuz.
    Hızlı (90tok/s) ve çoğu işi kapsıyor.
    Bu tür araştırmalar önemli ama dense modellerin bu hızı yakalaması zor görünüyor.
    • Bir Olmo geliştiricisi olarak söyleyeyim, Qwen modellerinin hızlı olmasının nedeni MoE yapısı.
      Bir sonraki Olmo sürümünde biz de MoE kullanmayı planlıyoruz.
    • Yeni MacBook’umda denedim, yavaştı; ama onun yerine Qwen2.5:14B anında geri bildirim verdi.
      Hatta Esperanto dilinde bile doğal biçimde sohbet edebildi.
    • Qwen3-30B-VL’nin daha “akıllı” görünmesinin sadece boyutundan değil, mimari farkından kaynaklanıp kaynaklanmadığını merak ediyorum.