Ornith-1.0 - Ajan tabanlı kodlama için kendini geliştiren açık kaynak model
(github.com/deepreinforce-ai)- Ornith-1.0, ajan tabanlı kodlama için kendini geliştiren açık kaynak bir modeldir; 9B Dense, 31B Dense, 35B MoE ve 397B MoE yapılandırmaları sunar ve Gemma 4 ile Qwen 3.5 üzerinde sonradan eğitilmiştir
- Eğitim çerçevesi, pekiştirmeli öğrenme kullanarak yalnızca çözüm rollout'larını değil, rollout'u yönlendiren scaffold'ları da üretmeyi öğrenir; böylece scaffold ile ortaya çıkan çözüm birlikte optimize edilir
- README'ye göre Ornith-1.0, Terminal-Bench 2.1, SWE-Bench, NL2Repo ve OpenClaw gibi kodlama benchmark'larında benzer boyuttaki açık kaynak modellere kıyasla en ileri seviye performans elde etmektedir
- Tüm checkpoint'ler OpenAI uyumlu arayüz sunar ve 256K token bağlam penceresini destekler; ayrıca vLLM, SGLang, Hugging Face Transformers, llama.cpp ve Ollama ile çalıştırılabilir
- MIT lisanslıdır, bölgesel kısıtlama olmadan dünya genelinde erişilebilir ve
reasoning_contentiletool_callsüzerinden akıl yürütme bloklarını araç çağrılarından ayırarak ajan çerçevelerine ve kodlama CLI'larına bağlanabilir
Model genel bakışı ve eğitim yöntemi
- Ornith-1.0, ajan tabanlı kodlama için kendini geliştiren açık kaynak model ailesidir
- Sunulan model boyutları 9B Dense, 31B Dense, 35B MoE ve 397B MoE'dir; Gemma 4 ve Qwen 3.5 üzerinde sonradan eğitilmiştir
- Kendini geliştiren eğitim çerçevesi pekiştirmeli öğrenme kullanır
- Model, yalnızca çözüm rollout'larını değil, rollout'u yönlendiren scaffold'ları da üretmek üzere eğitilir
- Scaffold ile ortaya çıkan çözüm birlikte optimize edilerek daha iyi arama izlekleri ve daha yüksek kaliteli çözümler bulunması hedeflenir
- Lisans MIT'dir, dünya genelinde erişilebilir ve bölgesel kısıtlama yoktur
Benchmark sonuçları
- Her model, boyutuna uygun referans modellerle karşılaştırılmıştır ve üç model aynı harness ile decoding ayarlarını kullanmıştır
-
Ornith-1.0-9B
- Terminal-Bench 2.1'de Terminus-2 bazında 43.1, Claude Code bazında 40.6 elde etmiştir
- SWE-bench Verified 69.4, SWE-bench Pro 42.9, SWE-bench Multilingual 52 elde etmiştir
- NL2Repo 27.2, Claw-eval Avg 63.1 elde etmiştir
- SWE Atlas sonuçları QnA 17.9, RF 16.6, TW 15.3'tür
-
Ornith-1.0-35B
- Terminal-Bench 2.1'de Terminus-2 bazında 64.2, Claude Code bazında 62.8 elde etmiştir
- SWE-bench Verified 75.6, SWE-bench Pro 50.4, SWE-bench Multilingual 69.3 elde etmiştir
- NL2Repo 34.6, Claw-eval Avg 69.8 elde etmiştir
- SWE Atlas sonuçları QnA 37.1, RF 29.7, TW 27.8'dir
-
Ornith-1.0-397B
- Terminal-Bench 2.1'de Terminus-2 bazında 77.5, Claude Code bazında 78.2 elde etmiştir
- SWE-bench Verified 82.4, SWE-bench Pro 62.2, SWE-bench Multilingual 78.9 elde etmiştir
- NL2Repo 48.2, Claw-eval Avg 77.1 elde etmiştir
- SWE Atlas sonuçları QnA 41.2, RF 42.6, TW 39.1'dir
Değerlendirme ayarları
- Terminal-Bench 2.1 Terminus-2 değerlendirmesi Harbor/Terminus-2 framework'ü, parser=json, temperature=1.0, top_p=1.0 ve 128K bağlam penceresi kullanır
- Her çalıştırma 4 saat timeout, 32 CPU çekirdeği, 48GB RAM kullanır ve sonuç 5 çalıştırmanın ortalamasıdır
- Qwen chat template'i, eğitim ve çıkarım tutarlılığı için ayarlanmış; Harbor ise vLLM'in
reasoning_contentanahtarıyla uyumlu olacak şekilde değiştirilmiştir
- Terminal-Bench 2.1 Claude Code değerlendirmesi Claude Code 2.1.126, parser=json, temperature=1.0, top_p=1.0, max_new_tokens=131072 kullanır ve sonuç 5 çalıştırmanın ortalamasıdır
- SWE-bench Verified / Pro / Multilingual OpenHands harness, temperature=1.0, top_p=0.95 ve 256K bağlam penceresi kullanır
- SWE Atlas QnA / RF / TW mini-SWE-agent harness, temperature=1.0, top_p=0.95 ve 128K bağlam penceresi kullanır; sonuç 5 çalıştırmanın ortalamasıdır
- NL2Repo temperature=1.0, top_p=1.0, 400K bağlam, 48K çıktı ve anti-hacking filters kullanır
- ClawEval, gerçek kullanıcı görev dağılımına dayalı ajan tabanlı bir kod benchmark'ıdır; temperature=0.6 ve 256K bağlam kullanır
Çalıştırma ve checkpoint'ler
- Ornith-1.0 bir reasoning model'dir ve varsayılan olarak assistant turn'ü
<think> … </think>bloğuyla başlayıp ardından nihai yanıtı döndürür - Sunum tarifleri, chain-of-thought'u ayrı bir
reasoning_contentalanında döndürmek için reasoning parser'ı açar ve<tool_call>bloklarını OpenAI tarzıtool_callsolarak sunmak için tool-call parser'ı etkinleştirir - Gerekli runtime sürümleri şunlardır
- Transformers ≥ 5.8.1
- vLLM ≥ 0.19.1
- SGLang ≥ 0.5.9
- Önerilen sampling parametreleri
temperature=0.6,top_p=0.95,top_k=20'dir- Raporlanan benchmark ayarlarını yeniden üretmek için
temperature=1.0kullanılır
- Raporlanan benchmark ayarlarını yeniden üretmek için
- Tüm checkpoint'ler aynı OpenAI uyumlu arayüzü sunar ve 256K, yani 262,144 token bağlam penceresini destekler
- Dense 9B, tek bir 80GB GPU için uygundur
- MoE checkpoint'leri, tensor parallelism ile çoklu GPU düğümlerine shard edilir
- Sunulan checkpoint'ler
- Ornith-1.0-9B: Dense yaklaşık 9B, bf16, tek GPU üzerinde servis ve fine-tuning için
- Ornith-1.0-9B-GGUF: Dense yaklaşık 9B, GGUF quantization, llama.cpp / Ollama ile yerel çıkarım için
- Ornith-1.0-35B: MoE 35B, bf16, full-precision çoklu GPU servis için
- Ornith-1.0-35B-FP8: MoE 35B, FP8, FP8 destekli GPU'larda VRAM'i yaklaşık yarıya indiren servis için
- Ornith-1.0-35B-GGUF: MoE 35B, GGUF quantization, llama.cpp / Ollama ile yerel çıkarım için
- Ornith-1.0-397B: MoE 397B, bf16, çoklu GPU düğümlerinde full-precision servis için
- Ornith-1.0-397B-FP8: MoE 397B, FP8, FP8 destekli GPU'larda bellek verimli servis için
OpenAI uyumlu API ve ajan kullanımı
- vLLM veya SGLang sunucusu çalıştığında, OpenAI uyumlu bir istemciyle
/v1/chat/completionsendpoint'i çağrılabilir - Yerel sunucu örneği
base_url="http://localhost:8000/v1",api_key="EMPTY",model="Ornith-1.0"kullanır - Yanıt mesajında reasoning_content
<think>akıl yürütme izini içerir,contentise nihai yanıtı taşır - Araçlar iletildiğinde Ornith-1.0 düzgün biçimli function call'lar üretir ve sunucu bunları standart tool_calls alanına parse eder
- OpenAI uyumlu SDK'lar Python, Node.js ve
curldahil aynı endpoint'i kullanabilir
Desteklenen framework'ler ve kodlama CLI'ları
- Ornith-1.0, araç çağrıları ve ajan tabanlı kodlama yetenekleri için optimize edilmiştir
- OpenAI uyumlu endpoint ve tool calling sunduğu için standart ajan framework'leriyle birlikte kullanılabilir
- README'de MCP sunucusu üzerinden araç bağlama örnekleri ve
run_shellfunction tool call örnekleri yer alır - Örnek olarak verilen ajan harness'leri ve runtime'lar şunlardır
- Hermes Agent:
OPENAI_BASE_URL,OPENAI_API_KEY,MODEL="Ornith-1.0"ayarları - OpenHands: LiteLLM'in
openai/Ornith-1.0yolu ve yerel base URL kullanımı - llama.cpp / Ollama: 9B ve 35B GGUF yapılarını yükleyerek yerel çıkarım
- Unsloth Studio:
FastLanguageModel.from_pretrainedile yerel çıkarım veya fine-tuning - OpenClaw: OpenAI uyumlu endpoint'i Ornith sunucusuna yönlendirme
- Hermes Agent:
- Kodlama CLI'ları
OPENAI_BASE_URLveOPENAI_API_KEYdeğerleri Ornith-1.0 endpoint'ine işaret edecek şekilde bağlanabilir - OpenCode örneği,
~/.config/opencode/opencode.jsoniçinde yerel bir Ornith provider'ı kaydeder veOrnith-1.0modelini kullanır
1 yorum
Hacker News yorumları
Önceki tartışma: https://news.ycombinator.com/item?id=48709744
https://swelljoe.com/post/will-it-mythos/: “Performansı pek iyi değil; neredeyse tüm modellerin bulduğu yalnızca bir hatayı buldu. Boyutuna göre diğer benchmark performansı mükemmel olmasına rağmen durum böyle. […] Araçsız sohbette de kötü performans gösteriyor ve epey ısrarlı biçimde halüsinasyon yapıyor. Şu anda bash/Python dahil tam araç erişimi vererek yeniden üretmeye çalışıyorum; o durumda bu model de rekabetçi olabilir”
Bu, yerel LLM topluluğunda anında reddedilmeyen ilk Qwen ince ayarı ve bazı durumlarda öneriliyor bile. Sınırlı kullanımıma göre fena değil; kodlama problemlerine yaratıcı çözümler üretiyor. 9~35B modellerin tek tıkla komple uygulama yapmasını beklemiyorum. Şikâyet edenlerin çoğu sanki bu beklentiden hareket ediyor
Qwen, Gemma, Llama, gpt-oss gibi modellerin çoğunda özel token’lar, prompt yapısı, model tercihleri gibi küçük tuzakları bulmak şu anda gerçekten zahmetli. Yine de uğraşıp öğrenilmiş prompt’lar ve parametrelerle ayarlanmış bir ajan çalışma ortamında çok iyi çalışan bir model elde edilebiliyor
Bu tür “kendini geliştiren” modeller neden sonunda en ileri seviye modelleri geçecek kadar gelişmiyor?
Kendi testlerimde Ornith-1.0 35B, Qwen-3.6 35B’den biraz daha iyiydi
Testlerim büyük bir C++ kod tabanına özellik ekleme veya düzeltme görevleri. İlginç olan, bu modelin Qwen3.6 35B’den çok daha hızlı olması. Ornith daha kısa düşünme süreçleri üretiyor gibi
Testlerimde yanıt üretme hızı 3 kata kadar daha hızlıydı. llamacpp ve codex-cli ile kullanıyorum
Ornith-1.0 35B’yi kendi yaptığım FP8 blok nicemleme ile test ettim ve beğendim. RTX PRO 6000(sm120) üzerinde vLLM ile 200 token/sn’nin üstüne çıkıyor; son birkaç günde ajan tarzı kodlama görevlerinde 140 milyondan fazla önbelleğe alınmış token çalıştırdım
Kabaca Qwen 3.6 35B-A3B ile 27B arasında bir yerde görünüyor; iyi tarafı ise Qwen 3.6’ya göre aşırı düşünmeye veya aynı döngüye takılmaya çok daha az meyilli olması. Düşünce izine bakınca parçalama yaklaşımındaki şablonu beğeniyorum
Orta ölçekli bir Go kod tabanında temel analiz, işleme alma ve bazı frontend/backend değişikliklerini iyi yaptı; ancak daha uzun ve basit bir kernel uygulama görevinde tamamen sınırına çarptı. Pi Agent çalışma ortamında yaklaşık 100 yineleme yaptım ama batırdı; bu tür işleri Kimi K2.6 veya GLM 5.2 gibi daha güçlü açık modeller yapabiliyor
Burada neler olduğunu biri açıklayabilir mi? Bu sadece Qwen’in üstü değiştirilmiş hâli mi? deepreinforce-ai kim ve bu model neden onların web sitesinde yok?
Kendini nasıl geliştirdiğini merak ediyorum. Diskteki model mi değişiyor, yoksa yalnızca tek bir bağlam yürütmesi sırasında mı daha iyi hâle geliyor?
Bana göre Qwen ve Gemma 4 üzerinde kendi pekiştirmeli öğrenmelerini çalıştırarak eğitmişler. İkisinin ağırlıklarını nasıl birleştirdiklerini bilmiyorum; Qwen’i temel alıp Gemma 4’ü eğitim yardımcısı olarak mı kullandıkları da net değil. Buradaki “kendini geliştirme”, ağırlıkların kullanım biçimini değil eğitim sürecini ifade ediyor gibi
Bunlar sadece Qwen veya Gemma 4’ün benchmark için optimize edilmiş sürümleri gibi görünüyor
“Yoğun 9B, tek bir 80GB GPU’ya sığıyor”
Bizim gibi sıradan insanlar kullanamayacak
Yerel modelleri çok denedim ve hepsi oyuncak gibi geldi. Ama bu gerçekten faydalıymış hissi verdi. Qwen 36-A3B’nin de iyi olduğunu duydum ama henüz deneyemedim
Kendini geliştiren sistemler ilginç, ancak kaynak takibini ve yönetişimi çok daha zor hâle getiriyor. Bir ajanın zaman içinde kendi davranışını değiştirmesine izin verildiğinde, neden belirli bir şekilde davrandığını anlamak giderek daha önemli oluyor