36 puan yazan GN⁺ 20 일 전 | 1 yorum | WhatsApp'ta paylaş
  • Claude Platform'da danışman stratejisi resmen kullanıma sunuldu — Opus'u danışman, Sonnet veya Haiku'yu yürütücü (executor) olarak birleştirerek maliyeti düşük tutarken Opus düzeyine yakın akıl yürütme yeteneğini ajanlara uygulayan bir desen
  • Sonnet görevi tek başına yürüttüğüne kıyasla Opus danışmanla birleştirildiğinde SWE-bench Multilingual skoru 2,7 yüzde puan arttı ve ajan görevi başına maliyet %11,9 azaldı
  • Haiku + Opus danışman kombinasyonu BrowseComp ölçümünde %41,2 ile Haiku'nun tek başına aldığı sonucun (%19,7) iki katından fazla performans gösterdi; Sonnet'in tek başına kullanımına kıyasla maliyet %85 azaldı
  • Messages API isteğinde advisor_20260301 aracı tanımlandığında, model devri tek bir /v1/messages isteği içinde tamamlanıyor; ek gidiş-dönüş istekleri veya bağlam yönetimi gerekmiyor
  • Danışman token'ları danışman model tarifesiyle, yürütücü token'ları ise yürütücü model tarifesiyle ayrı ayrı faturalandırılıyor; böylece maliyet takibi ve kontrolü mümkün oluyor

Danışman stratejisine genel bakış

  • Sonnet veya Haiku yürütücü olarak görevi baştan sona yerine getirir; araç çağrıları, sonuçları okuma ve yinelemeli işleri üstlenir
  • Yürütücü makul biçimde çözmesi zor bir karara ulaştığında Opus'tan yönlendirme ister ve Opus, paylaşılan bağlama bakarak plan, düzeltme veya durdurma sinyallerinden birini döndürür
  • Danışman (Opus) araçları doğrudan çağırmaz veya kullanıcıya dönük çıktı üretmez; yalnızca yürütücüye rehberlik sağlar
  • Bu yapı, büyük bir orkestratör modelin işi parçalayıp daha küçük worker modellere devrettiği mevcut alt ajan desenini tersine çeviren bir biçimdir ve ayrı bir worker havuzu ya da orkestrasyon mantığı olmadan çalışır
  • Frontier düzeyinde akıl yürütme yalnızca yürütücünün ihtiyaç duyduğu anlarda uygulanır; geri kalan yürütme bölümleri yürütücü model maliyetiyle sürdürülür

Performans değerlendirme sonuçları

  • Sonnet + Opus danışman kombinasyonu SWE-bench Multilingual'da Sonnet'in tek başına kullanımına göre 2,7 yüzde puan iyileşme sağladı; ajan görevi başına maliyet ise %11,9 azaldı
  • BrowseComp, Terminal-Bench 2.0 benchmark'larında da Sonnet'in tek başına kullanımına kıyasla skor artışı görülürken görev başına maliyet düştü
  • Haiku + Opus danışman: BrowseComp skoru %41,2 — Haiku'nun tek başına aldığı skorun (%19,7) iki katından fazla
    • Sonnet'in tek başına kullanımına göre skor %29 daha düşük, ancak görev başına maliyet %85 daha az
    • Danışman eklenince Haiku'nun tek başına kullanımına göre maliyet artsa da birleşik maliyet hâlâ Sonnet'e kıyasla çok daha düşük seviyede

Advisor Tool kullanımı

  • Messages API isteğinde advisor_20260301 tanımlandığında model devri tek bir /v1/messages isteği içinde tamamlanır — ek gidiş-dönüş istekleri veya bağlam yönetimi gerekmez
  • Yürütücü model, danışmanı ne zaman çağıracağına kendisi karar verir; seçilmiş bağlam danışman modele iletilir ve plan geri döner
  • max_uses parametresi ile istek başına danışman çağrısı için üst sınır belirlenebilir
  • Danışman token'ları usage bloğunda ayrıca raporlanır; böylece katman bazında harcama takibi yapılabilir
  • Mevcut araçlarla (web arama, kod çalıştırma vb.) aynı döngü içinde birlikte kullanılabilir
response = client.messages.create(  
    model="claude-sonnet-4-6",  # executor  
    tools=[  
        {  
            "type": "advisor_20260301",  
            "name": "advisor",  
            "model": "claude-opus-4-6",  
            "max_uses": 3,  
        },  
        # ... your other tools  
    ],  
    messages=[...]  
)  

Fiyatlandırma yapısı

  • Danışman token'ları danışman modelin (Opus) tarifesiyle, yürütücü token'ları ise yürütücü modelin (Sonnet/Haiku) tarifesiyle ücretlendirilir
  • Danışman yalnızca kısa planlar üretir (genellikle 400~700 metin token'ı) ve tüm çıktı daha düşük birim maliyetli yürütücü tarafından işlendiği için toplam maliyet, danışman modelin tek başına çalıştırılmasına kıyasla çok daha düşük kalır

Kullanıcı geri bildirimleri

  • Eve Legal ML mühendisi: "Haiku 4.5, karmaşıklığa göre Opus 4.6'ya başvurarak zekasını dinamik biçimde ölçeklendiriyor ve frontier model düzeyinde kaliteyi 5 kat daha düşük maliyetle elde ediyor"
  • Bolt CEO'su: "Karmaşık görevlerde daha iyi mimari kararlar veriyor, basit görevlerde ise ek yük oluşturmuyor — planlama ile yürütme izleri arasındaki fark çok belirgin"
  • Genspark CTO'su: "Ajan dönüşleri, araç çağrıları ve toplam skorda net iyileşme var — kendi geliştirdiğimiz planlama aracından daha iyi sonuç verdi"

Başlarken

  • Şu anda Claude Platform'da beta olarak sunuluyor
  • Başlangıç adımları:
    1. Beta özellik başlığını ekleyin: anthropic-beta: advisor-tool-2026-03-01
    2. Messages API isteğine advisor_20260301 ekleyin
    3. Sistem prompt'unu kullanım senaryonuza göre düzenleyin
  • Sonnet tek başına / Sonnet + Opus danışman / Opus tek başına olmak üzere üç yapılandırmayı mevcut eval suite ile karşılaştırmalı çalıştırmanız önerilir

1 yorum

 
heycalmdown 20 일 전

Şu an için özellikle yeni bir fikir değil, ancak arayüz imzasını ya da iş akışını bozmadan uygulanabilmesi açısından iyi bir yöntem gibi görünüyor.