Ornith-1.0 - Ajan tabanlı kodlama için kendini geliştiren açık kaynak model

(github.com/deepreinforce-ai)

2 puan yazan GN⁺ 4 시간 전 | 1 yorum | WhatsApp'ta paylaş

Ornith-1.0, ajan tabanlı kodlama için kendini geliştiren açık kaynak bir modeldir; 9B Dense, 31B Dense, 35B MoE ve 397B MoE yapılandırmaları sunar ve Gemma 4 ile Qwen 3.5 üzerinde sonradan eğitilmiştir
Eğitim çerçevesi, pekiştirmeli öğrenme kullanarak yalnızca çözüm rollout'larını değil, rollout'u yönlendiren scaffold'ları da üretmeyi öğrenir; böylece scaffold ile ortaya çıkan çözüm birlikte optimize edilir
README'ye göre Ornith-1.0, Terminal-Bench 2.1, SWE-Bench, NL2Repo ve OpenClaw gibi kodlama benchmark'larında benzer boyuttaki açık kaynak modellere kıyasla en ileri seviye performans elde etmektedir
Tüm checkpoint'ler OpenAI uyumlu arayüz sunar ve 256K token bağlam penceresini destekler; ayrıca vLLM, SGLang, Hugging Face Transformers, llama.cpp ve Ollama ile çalıştırılabilir
MIT lisanslıdır, bölgesel kısıtlama olmadan dünya genelinde erişilebilir ve reasoning_content ile tool_calls üzerinden akıl yürütme bloklarını araç çağrılarından ayırarak ajan çerçevelerine ve kodlama CLI'larına bağlanabilir

Model genel bakışı ve eğitim yöntemi

Ornith-1.0, ajan tabanlı kodlama için kendini geliştiren açık kaynak model ailesidir
Sunulan model boyutları 9B Dense, 31B Dense, 35B MoE ve 397B MoE'dir; Gemma 4 ve Qwen 3.5 üzerinde sonradan eğitilmiştir
Kendini geliştiren eğitim çerçevesi pekiştirmeli öğrenme kullanır
- Model, yalnızca çözüm rollout'larını değil, rollout'u yönlendiren scaffold'ları da üretmek üzere eğitilir
- Scaffold ile ortaya çıkan çözüm birlikte optimize edilerek daha iyi arama izlekleri ve daha yüksek kaliteli çözümler bulunması hedeflenir
Lisans MIT'dir, dünya genelinde erişilebilir ve bölgesel kısıtlama yoktur

Benchmark sonuçları

Her model, boyutuna uygun referans modellerle karşılaştırılmıştır ve üç model aynı harness ile decoding ayarlarını kullanmıştır
Ornith-1.0-9B
- Terminal-Bench 2.1'de Terminus-2 bazında 43.1, Claude Code bazında 40.6 elde etmiştir
- SWE-bench Verified 69.4, SWE-bench Pro 42.9, SWE-bench Multilingual 52 elde etmiştir
- NL2Repo 27.2, Claw-eval Avg 63.1 elde etmiştir
- SWE Atlas sonuçları QnA 17.9, RF 16.6, TW 15.3'tür
Ornith-1.0-35B
- Terminal-Bench 2.1'de Terminus-2 bazında 64.2, Claude Code bazında 62.8 elde etmiştir
- SWE-bench Verified 75.6, SWE-bench Pro 50.4, SWE-bench Multilingual 69.3 elde etmiştir
- NL2Repo 34.6, Claw-eval Avg 69.8 elde etmiştir
- SWE Atlas sonuçları QnA 37.1, RF 29.7, TW 27.8'dir
Ornith-1.0-397B
- Terminal-Bench 2.1'de Terminus-2 bazında 77.5, Claude Code bazında 78.2 elde etmiştir
- SWE-bench Verified 82.4, SWE-bench Pro 62.2, SWE-bench Multilingual 78.9 elde etmiştir
- NL2Repo 48.2, Claw-eval Avg 77.1 elde etmiştir
- SWE Atlas sonuçları QnA 41.2, RF 42.6, TW 39.1'dir

Değerlendirme ayarları

Terminal-Bench 2.1 Terminus-2 değerlendirmesi Harbor/Terminus-2 framework'ü, parser=json, temperature=1.0, top_p=1.0 ve 128K bağlam penceresi kullanır
- Her çalıştırma 4 saat timeout, 32 CPU çekirdeği, 48GB RAM kullanır ve sonuç 5 çalıştırmanın ortalamasıdır
- Qwen chat template'i, eğitim ve çıkarım tutarlılığı için ayarlanmış; Harbor ise vLLM'in reasoning_content anahtarıyla uyumlu olacak şekilde değiştirilmiştir
Terminal-Bench 2.1 Claude Code değerlendirmesi Claude Code 2.1.126, parser=json, temperature=1.0, top_p=1.0, max_new_tokens=131072 kullanır ve sonuç 5 çalıştırmanın ortalamasıdır
SWE-bench Verified / Pro / Multilingual OpenHands harness, temperature=1.0, top_p=0.95 ve 256K bağlam penceresi kullanır
SWE Atlas QnA / RF / TW mini-SWE-agent harness, temperature=1.0, top_p=0.95 ve 128K bağlam penceresi kullanır; sonuç 5 çalıştırmanın ortalamasıdır
NL2Repo temperature=1.0, top_p=1.0, 400K bağlam, 48K çıktı ve anti-hacking filters kullanır
ClawEval, gerçek kullanıcı görev dağılımına dayalı ajan tabanlı bir kod benchmark'ıdır; temperature=0.6 ve 256K bağlam kullanır

Çalıştırma ve checkpoint'ler

Ornith-1.0 bir reasoning model'dir ve varsayılan olarak assistant turn'ü <think> … </think> bloğuyla başlayıp ardından nihai yanıtı döndürür
Sunum tarifleri, chain-of-thought'u ayrı bir reasoning_content alanında döndürmek için reasoning parser'ı açar ve <tool_call> bloklarını OpenAI tarzı tool_calls olarak sunmak için tool-call parser'ı etkinleştirir
Gerekli runtime sürümleri şunlardır
- Transformers ≥ 5.8.1
- vLLM ≥ 0.19.1
- SGLang ≥ 0.5.9
Önerilen sampling parametreleri temperature=0.6, top_p=0.95, top_k=20'dir
- Raporlanan benchmark ayarlarını yeniden üretmek için temperature=1.0 kullanılır
Tüm checkpoint'ler aynı OpenAI uyumlu arayüzü sunar ve 256K, yani 262,144 token bağlam penceresini destekler
- Dense 9B, tek bir 80GB GPU için uygundur
- MoE checkpoint'leri, tensor parallelism ile çoklu GPU düğümlerine shard edilir
Sunulan checkpoint'ler
- Ornith-1.0-9B: Dense yaklaşık 9B, bf16, tek GPU üzerinde servis ve fine-tuning için
- Ornith-1.0-9B-GGUF: Dense yaklaşık 9B, GGUF quantization, llama.cpp / Ollama ile yerel çıkarım için
- Ornith-1.0-35B: MoE 35B, bf16, full-precision çoklu GPU servis için
- Ornith-1.0-35B-FP8: MoE 35B, FP8, FP8 destekli GPU'larda VRAM'i yaklaşık yarıya indiren servis için
- Ornith-1.0-35B-GGUF: MoE 35B, GGUF quantization, llama.cpp / Ollama ile yerel çıkarım için
- Ornith-1.0-397B: MoE 397B, bf16, çoklu GPU düğümlerinde full-precision servis için
- Ornith-1.0-397B-FP8: MoE 397B, FP8, FP8 destekli GPU'larda bellek verimli servis için

OpenAI uyumlu API ve ajan kullanımı

vLLM veya SGLang sunucusu çalıştığında, OpenAI uyumlu bir istemciyle /v1/chat/completions endpoint'i çağrılabilir
Yerel sunucu örneği base_url="http://localhost:8000/v1";, api_key="EMPTY", model="Ornith-1.0" kullanır
Yanıt mesajında reasoning_content <think> akıl yürütme izini içerir, content ise nihai yanıtı taşır
Araçlar iletildiğinde Ornith-1.0 düzgün biçimli function call'lar üretir ve sunucu bunları standart tool_calls alanına parse eder
OpenAI uyumlu SDK'lar Python, Node.js ve curl dahil aynı endpoint'i kullanabilir

Desteklenen framework'ler ve kodlama CLI'ları

Ornith-1.0, araç çağrıları ve ajan tabanlı kodlama yetenekleri için optimize edilmiştir
OpenAI uyumlu endpoint ve tool calling sunduğu için standart ajan framework'leriyle birlikte kullanılabilir
README'de MCP sunucusu üzerinden araç bağlama örnekleri ve run_shell function tool call örnekleri yer alır
Örnek olarak verilen ajan harness'leri ve runtime'lar şunlardır
- Hermes Agent: OPENAI_BASE_URL, OPENAI_API_KEY, MODEL="Ornith-1.0" ayarları
- OpenHands: LiteLLM'in openai/Ornith-1.0 yolu ve yerel base URL kullanımı
- llama.cpp / Ollama: 9B ve 35B GGUF yapılarını yükleyerek yerel çıkarım
- Unsloth Studio: FastLanguageModel.from_pretrained ile yerel çıkarım veya fine-tuning
- OpenClaw: OpenAI uyumlu endpoint'i Ornith sunucusuna yönlendirme
Kodlama CLI'ları OPENAI_BASE_URL ve OPENAI_API_KEY değerleri Ornith-1.0 endpoint'ine işaret edecek şekilde bağlanabilir
OpenCode örneği, ~/.config/opencode/opencode.json içinde yerel bir Ornith provider'ı kaydeder ve Ornith-1.0 modelini kullanır

1 yorum

GN⁺ 4 시간 전

Hacker News yorumları

Önceki tartışma: https://news.ycombinator.com/item?id=48709744
https://swelljoe.com/post/will-it-mythos/: “Performansı pek iyi değil; neredeyse tüm modellerin bulduğu yalnızca bir hatayı buldu. Boyutuna göre diğer benchmark performansı mükemmel olmasına rağmen durum böyle. […] Araçsız sohbette de kötü performans gösteriyor ve epey ısrarlı biçimde halüsinasyon yapıyor. Şu anda bash/Python dahil tam araç erişimi vererek yeniden üretmeye çalışıyorum; o durumda bu model de rekabetçi olabilir”
- 2026’da “araçsız sohbette kötü performans gösteriyor” sözünün ciddi ciddi söylenmesi tuhaf. Bu ince ayarın iyi olup olmadığını kendim denemediğim için bilmiyorum ama açıkça ajan tipi bir modeli araç erişimi olmadan test edip iyi çalışmasını beklemek saçma değil mi? Ne test ettiklerini hiç anlamadım
- O benchmark, Kimi K2.6 ve K2.7 Code’u neredeyse en alt sıralara koyuyor. İkisi de Ornith 35B’den düşük; Gemma 4 26B’yi de GLM-5.2’den çok daha yukarıda değerlendiriyor. Sonuçlar pek ikna edici gelmiyor
Bu, yerel LLM topluluğunda anında reddedilmeyen ilk Qwen ince ayarı ve bazı durumlarda öneriliyor bile. Sınırlı kullanımıma göre fena değil; kodlama problemlerine yaratıcı çözümler üretiyor. 9~35B modellerin tek tıkla komple uygulama yapmasını beklemiyorum. Şikâyet edenlerin çoğu sanki bu beklentiden hareket ediyor
- Yerel LLM topluluğuna eski kripto/NFT pazarlamacıları doluştu ve önceki topluluklarının abartı kültürünü de beraberlerinde getirdiler. Hâlâ derinlikli teknik insanlar var ama boş pazarlama sesleri arasında giderek kayboluyorlar
- Ne yazık ki başından beri böyleydi. Yerel modelleri yerel işlerde, makul güvenlik önlemleriyle denemenin zararlı bir yanı yok
  Qwen, Gemma, Llama, gpt-oss gibi modellerin çoğunda özel token’lar, prompt yapısı, model tercihleri gibi küçük tuzakları bulmak şu anda gerçekten zahmetli. Yine de uğraşıp öğrenilmiş prompt’lar ve parametrelerle ayarlanmış bir ajan çalışma ortamında çok iyi çalışan bir model elde edilebiliyor
- Daha iyiye gitmiş değil. LocalLLama topluluğunun çoğunluğu bundan pek hoşlanmıyor; sadece yeni gelen birkaç kişi paylaşım yapıyor
- Sanırım farklı topluluklardayız. Qwen modelleri, genel kullanıcıların erişebileceği yerel donanımda gerçekten çalıştırılabilen modeller arasında en çok önerilenlerden
Bu tür “kendini geliştiren” modeller neden sonunda en ileri seviye modelleri geçecek kadar gelişmiyor?
Kendi testlerimde Ornith-1.0 35B, Qwen-3.6 35B’den biraz daha iyiydi
Testlerim büyük bir C++ kod tabanına özellik ekleme veya düzeltme görevleri. İlginç olan, bu modelin Qwen3.6 35B’den çok daha hızlı olması. Ornith daha kısa düşünme süreçleri üretiyor gibi
Testlerimde yanıt üretme hızı 3 kata kadar daha hızlıydı. llamacpp ve codex-cli ile kullanıyorum
Ornith-1.0 35B’yi kendi yaptığım FP8 blok nicemleme ile test ettim ve beğendim. RTX PRO 6000(sm120) üzerinde vLLM ile 200 token/sn’nin üstüne çıkıyor; son birkaç günde ajan tarzı kodlama görevlerinde 140 milyondan fazla önbelleğe alınmış token çalıştırdım
Kabaca Qwen 3.6 35B-A3B ile 27B arasında bir yerde görünüyor; iyi tarafı ise Qwen 3.6’ya göre aşırı düşünmeye veya aynı döngüye takılmaya çok daha az meyilli olması. Düşünce izine bakınca parçalama yaklaşımındaki şablonu beğeniyorum
Orta ölçekli bir Go kod tabanında temel analiz, işleme alma ve bazı frontend/backend değişikliklerini iyi yaptı; ancak daha uzun ve basit bir kernel uygulama görevinde tamamen sınırına çarptı. Pi Agent çalışma ortamında yaklaşık 100 yineleme yaptım ama batırdı; bu tür işleri Kimi K2.6 veya GLM 5.2 gibi daha güçlü açık modeller yapabiliyor
- Bu model boyutunda çalışma ortamı daha önemli görünüyordu. Şahsen qwen3.6 27b’de ham pi yerine little-coder’a geçtim; göz atmaya değer
Burada neler olduğunu biri açıklayabilir mi? Bu sadece Qwen’in üstü değiştirilmiş hâli mi? deepreinforce-ai kim ve bu model neden onların web sitesinde yok?
Kendini nasıl geliştirdiğini merak ediyorum. Diskteki model mi değişiyor, yoksa yalnızca tek bir bağlam yürütmesi sırasında mı daha iyi hâle geliyor?
- Kendini geliştirmiyor. Başlık yanıltıcı bir ifade
  Bana göre Qwen ve Gemma 4 üzerinde kendi pekiştirmeli öğrenmelerini çalıştırarak eğitmişler. İkisinin ağırlıklarını nasıl birleştirdiklerini bilmiyorum; Qwen’i temel alıp Gemma 4’ü eğitim yardımcısı olarak mı kullandıkları da net değil. Buradaki “kendini geliştirme”, ağırlıkların kullanım biçimini değil eğitim sürecini ifade ediyor gibi
Bunlar sadece Qwen veya Gemma 4’ün benchmark için optimize edilmiş sürümleri gibi görünüyor
- Öyleyse zaten benchmark’lara epey optimize edilmiş Qwen’i daha da ileri götürmüş olmaları etkileyici
“Yoğun 9B, tek bir 80GB GPU’ya sığıyor”
Bizim gibi sıradan insanlar kullanamayacak
- Tuhaf görünüyor. 9B model normalde 24GB GPU’ya da nicemlenmemiş hâliyle sığar
- Nicemlenmiş sürümler zaten çıktı
Yerel modelleri çok denedim ve hepsi oyuncak gibi geldi. Ama bu gerçekten faydalıymış hissi verdi. Qwen 36-A3B’nin de iyi olduğunu duydum ama henüz deneyemedim
Kendini geliştiren sistemler ilginç, ancak kaynak takibini ve yönetişimi çok daha zor hâle getiriyor. Bir ajanın zaman içinde kendi davranışını değiştirmesine izin verildiğinde, neden belirli bir şekilde davrandığını anlamak giderek daha önemli oluyor

Ornith-1.0 - Ajan tabanlı kodlama için kendini geliştiren açık kaynak model

Model genel bakışı ve eğitim yöntemi

Benchmark sonuçları

Ornith-1.0-9B

Ornith-1.0-35B

Ornith-1.0-397B

Değerlendirme ayarları

Çalıştırma ve checkpoint'ler

OpenAI uyumlu API ve ajan kullanımı

Desteklenen framework'ler ve kodlama CLI'ları

İlgili okumalar

1 yorum

Hacker News yorumları