- Claude Platform'da danışman stratejisi resmen kullanıma sunuldu — Opus'u danışman, Sonnet veya Haiku'yu yürütücü (executor) olarak birleştirerek maliyeti düşük tutarken Opus düzeyine yakın akıl yürütme yeteneğini ajanlara uygulayan bir desen
- Sonnet görevi tek başına yürüttüğüne kıyasla Opus danışmanla birleştirildiğinde SWE-bench Multilingual skoru 2,7 yüzde puan arttı ve ajan görevi başına maliyet %11,9 azaldı
- Haiku + Opus danışman kombinasyonu BrowseComp ölçümünde %41,2 ile Haiku'nun tek başına aldığı sonucun (%19,7) iki katından fazla performans gösterdi; Sonnet'in tek başına kullanımına kıyasla maliyet %85 azaldı
- Messages API isteğinde advisor_20260301 aracı tanımlandığında, model devri tek bir /v1/messages isteği içinde tamamlanıyor; ek gidiş-dönüş istekleri veya bağlam yönetimi gerekmiyor
- Danışman token'ları danışman model tarifesiyle, yürütücü token'ları ise yürütücü model tarifesiyle ayrı ayrı faturalandırılıyor; böylece maliyet takibi ve kontrolü mümkün oluyor
Danışman stratejisine genel bakış
- Sonnet veya Haiku yürütücü olarak görevi baştan sona yerine getirir; araç çağrıları, sonuçları okuma ve yinelemeli işleri üstlenir
- Yürütücü makul biçimde çözmesi zor bir karara ulaştığında Opus'tan yönlendirme ister ve Opus, paylaşılan bağlama bakarak plan, düzeltme veya durdurma sinyallerinden birini döndürür
- Danışman (Opus) araçları doğrudan çağırmaz veya kullanıcıya dönük çıktı üretmez; yalnızca yürütücüye rehberlik sağlar
- Bu yapı, büyük bir orkestratör modelin işi parçalayıp daha küçük worker modellere devrettiği mevcut alt ajan desenini tersine çeviren bir biçimdir ve ayrı bir worker havuzu ya da orkestrasyon mantığı olmadan çalışır
- Frontier düzeyinde akıl yürütme yalnızca yürütücünün ihtiyaç duyduğu anlarda uygulanır; geri kalan yürütme bölümleri yürütücü model maliyetiyle sürdürülür
Performans değerlendirme sonuçları
- Sonnet + Opus danışman kombinasyonu SWE-bench Multilingual'da Sonnet'in tek başına kullanımına göre 2,7 yüzde puan iyileşme sağladı; ajan görevi başına maliyet ise %11,9 azaldı
- BrowseComp, Terminal-Bench 2.0 benchmark'larında da Sonnet'in tek başına kullanımına kıyasla skor artışı görülürken görev başına maliyet düştü
- Haiku + Opus danışman: BrowseComp skoru %41,2 — Haiku'nun tek başına aldığı skorun (%19,7) iki katından fazla
- Sonnet'in tek başına kullanımına göre skor %29 daha düşük, ancak görev başına maliyet %85 daha az
- Danışman eklenince Haiku'nun tek başına kullanımına göre maliyet artsa da birleşik maliyet hâlâ Sonnet'e kıyasla çok daha düşük seviyede
Advisor Tool kullanımı
- Messages API isteğinde advisor_20260301 tanımlandığında model devri tek bir /v1/messages isteği içinde tamamlanır — ek gidiş-dönüş istekleri veya bağlam yönetimi gerekmez
- Yürütücü model, danışmanı ne zaman çağıracağına kendisi karar verir; seçilmiş bağlam danışman modele iletilir ve plan geri döner
- max_uses parametresi ile istek başına danışman çağrısı için üst sınır belirlenebilir
- Danışman token'ları usage bloğunda ayrıca raporlanır; böylece katman bazında harcama takibi yapılabilir
- Mevcut araçlarla (web arama, kod çalıştırma vb.) aynı döngü içinde birlikte kullanılabilir
response = client.messages.create(
model="claude-sonnet-4-6", # executor
tools=[
{
"type": "advisor_20260301",
"name": "advisor",
"model": "claude-opus-4-6",
"max_uses": 3,
},
# ... your other tools
],
messages=[...]
)
Fiyatlandırma yapısı
- Danışman token'ları danışman modelin (Opus) tarifesiyle, yürütücü token'ları ise yürütücü modelin (Sonnet/Haiku) tarifesiyle ücretlendirilir
- Danışman yalnızca kısa planlar üretir (genellikle 400~700 metin token'ı) ve tüm çıktı daha düşük birim maliyetli yürütücü tarafından işlendiği için toplam maliyet, danışman modelin tek başına çalıştırılmasına kıyasla çok daha düşük kalır
Kullanıcı geri bildirimleri
- Eve Legal ML mühendisi: "Haiku 4.5, karmaşıklığa göre Opus 4.6'ya başvurarak zekasını dinamik biçimde ölçeklendiriyor ve frontier model düzeyinde kaliteyi 5 kat daha düşük maliyetle elde ediyor"
- Bolt CEO'su: "Karmaşık görevlerde daha iyi mimari kararlar veriyor, basit görevlerde ise ek yük oluşturmuyor — planlama ile yürütme izleri arasındaki fark çok belirgin"
- Genspark CTO'su: "Ajan dönüşleri, araç çağrıları ve toplam skorda net iyileşme var — kendi geliştirdiğimiz planlama aracından daha iyi sonuç verdi"
Başlarken
- Şu anda Claude Platform'da beta olarak sunuluyor
- Başlangıç adımları:
- Beta özellik başlığını ekleyin:
anthropic-beta: advisor-tool-2026-03-01
- Messages API isteğine
advisor_20260301 ekleyin
- Sistem prompt'unu kullanım senaryonuza göre düzenleyin
- Sonnet tek başına / Sonnet + Opus danışman / Opus tek başına olmak üzere üç yapılandırmayı mevcut eval suite ile karşılaştırmalı çalıştırmanız önerilir
1 yorum
Şu an için özellikle yeni bir fikir değil, ancak arayüz imzasını ya da iş akışını bozmadan uygulanabilmesi açısından iyi bir yöntem gibi görünüyor.