- Olmo 3, yalnızca modelin nihai çıktısını değil, tüm geliştirme sürecini (model flow) da açık hale getirerek veri, kod ve checkpoint’lere kadar tam izlenebilirlik sunuyor
- 7B ve 32B parametre ölçeğinde Base, Think, Instruct, RL Zero olmak üzere dört modelden oluşuyor; muhakeme, diyalog ve pekiştirmeli öğrenme gibi farklı araştırma amaçlarına uygun şekilde kullanılabiliyor
- Dolma 3 ve Dolci veri kümelerine dayanarak web, kod, matematik ve bilim gibi alanlarda yaklaşık 9,3 trilyon token ölçeğinde şeffaf eğitim verisi yayımlanıyor
- OlmoTrace aracıyla model çıktısının hangi eğitim verilerinden kaynaklandığı gerçek zamanlı olarak izlenebiliyor; bu da şeffaflık ve güvenilirliği güçlendiriyor
- Tam açık kaynak yayımı sayesinde herkes modelin belirli bir aşamasına müdahale edebilir, değiştirebilir ve yeniden eğitebilir; böylece doğrulanabilir bir yapay zeka araştırma ekosistemi kuruluyor
Olmo 3 genel bakış
- Olmo 3, Allen Institute for AI (Ai2) tarafından yayımlanan yeni nesil açık kaynak dil modeli ailesi ve temel özelliği, modelin tam geliştirme akışını (model flow) açık etmesi
- Model akışı; veri toplama, ön işleme, eğitim, ince ayar ve pekiştirmeli öğrenme dahil tüm aşamaları kapsıyor
- Bu sayede araştırmacılar ve geliştiriciler modelin iç çalışma prensiplerini analiz edip değiştirebiliyor
- Olmo 3, 7B ve 32B parametre sürümleriyle sunuluyor ve dizüstü bilgisayarlardan araştırma kümelerine kadar farklı ortamlarda çalıştırılabiliyor
Başlıca model bileşenleri
- Olmo 3-Base (7B, 32B)
- Tamamen açık bir base model olarak kod, matematik ve okuduğunu anlama gibi çeşitli alanlarda üst düzey performans sunuyor
- Qwen 2.5, Gemma 3 gibi aynı sınıftaki modellerle rekabet ediyor ve 65K token genişletilmiş bağlam desteği sağlıyor
- Olmo 3-Think (7B, 32B)
- Çok adımlı muhakeme problemleriyle eğitilmiş muhakeme odaklı model; RL araştırmaları ve uzun süreli düşünme deneyleri için uygun
- 32B model, MATH, OMEGA, BigBenchHard gibi testlerde sınıfının en iyileri seviyesinde performans gösteriyor
- Olmo 3-Instruct (7B)
- Diyalog, komut yerine getirme ve araç kullanımına optimize edilmiş model; Qwen 2.5, Gemma 3 ve Llama 3.1 ile aynı seviyede veya daha iyi
- Olmo 3-RL Zero (7B)
- Pekiştirmeli öğrenme algoritmalarını değerlendirmek için tamamen açık bir yol sunuyor ve matematik, kod, talimat izleme gibi 4 alan checkpoint’i içeriyor
Performans ve benchmark’lar
- Olmo 3-Base 32B, Marin 32B, Apertus 70B gibi tamamen açık modelleri geride bırakıyor
- GSM8k (matematik) 80.5 puan, HumanEval (kod) 66.5 puan gibi önemli benchmark’larda güçlü sonuçlar veriyor
- Olmo 3-Think 32B, Qwen 3 32B ile benzer ya da yakın performans gösteriyor ve HumanEvalPlus, IFEval gibi testlerde en yüksek puanları kaydediyor
- Olmo 3-Instruct 7B, güvenlik (Safety) kategorisinde 87.3 puanla karşılaştırılan modeller arasında en yüksek skoru alıyor
Mimari ve eğitim süreci
- Yalnızca decoder kullanan transformer mimarisi benimsenmiş; 3 aşamalı ön eğitim (temel → ara → uzun bağlam) ve 3 aşamalı son eğitimden (SFT → DPO → RLVR) oluşuyor
- Her aşamaya ait checkpoint’ler açık olarak yayımlanıyor; araştırmacılar istedikleri noktada modeli fork’layabiliyor veya deney yapabiliyor
- Dolma 3 (yaklaşık 9,3 trilyon token) ve Dolci veri kümeleriyle eğitim sürecinin tamamında veri şeffaflığı sağlanıyor
- Ayrıntılı bileşenler arasında Dolma 3 Mix (6 trilyon token), Dolmino (100B token), Longmino (50B token) yer alıyor
- Dolci, SFT, DPO ve RLVR aşamalarının her biri için ayrı veri karışımları sunuyor
Verimli eğitim altyapısı
- En fazla 1.024 adet H100 GPU ile eğitim yapılıyor; 7B model için işleme hızı 7.7K token/saniye
- in-flight weight updates, continuous batching, threading iyileştirmeleri gibi tekniklerle RL eğitim verimliliği 4 kat artırılmış
- Olmo 3’ün 32B modeli, performans ve erişilebilirlik arasında denge noktası olarak konumlandırılmış; böylece araştırmacılar doğrudan ince ayar yapabiliyor
Şeffaflık ve araç ekosistemi
- OlmoTrace ile model çıktısı ve eğitim verisi arasındaki bağlantı görsel olarak izlenebiliyor
- Tüm veri kümeleri ve toolchain’ler açık kaynak olarak yayımlanıyor
- Bunlar arasında Olmo-core (dağıtık eğitim çatısı), Open Instruct (son eğitim pipeline’ı), datamap-rs (veri temizleme), duplodocus (yinelenen verileri kaldırma), OLMES (değerlendirme araç takımı) yer alıyor
- Araştırmacılar, modelin ara muhakeme adımlarını ve başarısız olduğu noktaları analiz ederek model davranışının nedenlerini anlayabiliyor
Kullanım alanları ve önemi
- Olmo 3, araştırma, eğitim ve uygulama geliştirme gibi alanlarda güvenilir yapay zeka sistemleri kurulmasını destekliyor
- Modelin tüm aşamalarının açık olması, yeniden üretilebilirliği, doğrulanabilirliği ve ortak araştırmayı teşvik ediyor
- Ai2, “gerçek açık kaynak yapay zeka, yalnızca erişim değil; güven, sorumluluk ve ortak gelişim anlamına gelir” diyor
- Olmo 3, tam şeffaflık sayesinde herkesin yapay zekanın iç yapısını anlayıp iyileştirebildiği yeni bir açık araştırma paradigması öneriyor
1 yorum
Hacker News yorumları
Bu tür bir şeffaflık olmadan genel kamuoyunun büyük LLM tabanlı sistemleri anlaması veya kontrol etmesi için bir yol olmayacağını düşünüyorum.
Sonunda ya Big Tech, ya otoriterler ya da yapay zekanın kendisi keyfi davranma riski taşıyor.
Üçüncü taraf bir kurumun denetim yapıp şeffaflık raporları sunacağı bir yapıya ihtiyaç olduğunu düşünüyorum.
Umarım bu tür denemeler sürer.
Sırf ağırlıkları yayımlamak buna açık kaynak demek için yeterli değil; bu yanlış bir uygulama.
Gerçek açık kaynak modeller için “şeffaf model” gibi yeni bir ada ihtiyaç var.
Ama benim yorumuma ve Talmud hukukuna göre zürafa uygundur; GPT5.1 de benim yorumuma katıldı.
Bu tür bilgiler RAG gibi arama tabanlı bir sistemden getirilmeli.
“Bilmiyorum” diyen bir model daha kullanışlı olabilir.
Küçük modeller uç durumları zorla ele almaya çalışma eğiliminde.
Bu yüzden onlara bir “edge_case” çıkışı sağlarsanız çok daha iyi çalışıyorlar.
Keşke bu tür prompt hacking ipuçlarını toplayan merkezi bir depo olsa.
Model yanıtıyla eşleşen eğitim verisi belgelerini gösterdiğini söylüyor.
Ama pratikte yalnızca basit N-gram eşleşmeleri buluyor gibi, bu yüzden buna izlenebilirlik demek zor.
Sonuçların soruyla alakasız belgelerden geldiği durumlar da oldu.
N-gram açıklaması
Bunun yerine modelin hangi eğitim verisi parçalarından etkilendiğini göstermeyi amaçlıyor.
Örneğin farklı modellerin neden aynı şakayı ya da sayıları tekrar ettiğini bununla izleyebilirsiniz.
7B, 8GB GPU’ya; 32B, 24GB GPU’ya uyuyor ve 20B sınıfı modeller de 16GB GPU’ya tam denk geliyor.
Hâlâ en uygun boyutu bulmak için deneyler sürüyor.
Şahsen GPU’larda ölçeklenebilir VRAM olmasını isterdim.
Muhtemelen bir OpenWebUI hatası gibi görünüyor.
GPT-OSS’ta da böyleydi, bu OLMo için de benzer bir durum tekrar edecek gibi.
7B “Hi! I'm Olmo 3…” diye, 32B ise “Hi! I'm Olmo…” diye yanıt veriyor.
Sonunda basit bir selam bile felsefi bir yorumla bitiyormuş gibi geliyor.
Daha ilk satırdan yetişkin site metni içermesine şaşırdım.
Tüm boru hattını yayımlamak istiyorsanız bu tür verileri de dahil etmeniz gerekir.
Yine de önizlemede böyle kısımların hemen görünmemesi için bir ayar yapılabilirdi.
Çoğu cihaz üstü çıkarım için gibi görünüyor; başka örnekler var mı?
Birçok şirket Qwen 3 fine-tune modeli kullanmaktan Olmo 32B’ye geçebilir.
Performansı küçük non-LLM modellerden daha iyiydi.
Basit bir Google aramasından daha hızlı ve terminal komutları, dosya gezintisi ve not düzenleme işlerini de hallediyor.
Hızı (90tok/s) ve düşük gecikmesi sayesinde ufak işleri çok daha verimli biçimde yapabiliyorum.
Buna karşılık Sonnet 4.5 yavaş ve hafif hatalı olduğundan gerçek kullanımda verimsiz kalıyor.
Hızlı (90tok/s) ve çoğu işi kapsıyor.
Bu tür araştırmalar önemli ama dense modellerin bu hızı yakalaması zor görünüyor.
Bir sonraki Olmo sürümünde biz de MoE kullanmayı planlıyoruz.
Hatta Esperanto dilinde bile doğal biçimde sohbet edebildi.