24 puan yazan GN⁺ 2025-11-25 | 5 yorum | WhatsApp'ta paylaş
  • Claude Developer Platform’a 3 yeni özellik eklendi; böylece modelin binlerce harici aracı verimli biçimde keşfedip çağırabildiği ve öğrenebildiği gelişmiş bir araç kullanımı yapısı sunuluyor
  • Tool Search Tool, araç tanımlarını yalnızca gerektiği anda yükleyerek token kullanımını %85’e kadar azaltıyor ve büyük ölçekli MCP ortamlarında doğruluğu %74–88 seviyesine çıkarıyor
  • Programmatic Tool Calling, kod yürütme ortamında araçları paralel çağırarak token tasarrufu (%37), daha düşük gecikme ve daha yüksek doğruluk sağlıyor
  • Tool Use Examples, gerçek çağrı örnekleri üzerinden JSON Schema ile ifade edilemeyen araç kullanım kalıplarını ve parametre ilişkilerini modele öğretiyor
  • Bu üç özellik, büyük ölçekli yapay zeka ajanlarının verimli orkestrasyonu için temel sunuyor ve karmaşık iş akışı otomasyonunun çekirdek bileşenleri arasında yer alıyor

Yapay zeka ajanlarında araç kullanımını ölçeklendirmek

  • Geleceğin yapay zeka ajanlarının yüzlerce, hatta binlerce aracı bütünleşik biçimde kullanması gerekecek
    • Örnek olarak IDE yardımcı araçları, operasyon koordinatörleri ve Slack, GitHub, Jira, Google Drive gibi servislerle entegrasyon veriliyor
  • Mevcut yaklaşımda tüm araç tanımlarının önceden yüklenmesi gerekiyor; bu da context window’u hızla tüketiyor
  • Yeni yaklaşım ise araçları gerektiği anda keşfedip yüklemeye, ayrıca kod tabanlı çağrılar ve örneklerden öğrenme ile verimlilik sağlamaya odaklanıyor

Tool Search Tool

  • Mevcut MCP ortamlarında çok sayıda sunucu bağlandığında araç tanımları 100 binden fazla token kaplayabiliyor
    • Örnek: GitHub (26K), Slack (21K), Jira (17K) gibi kaynaklar biriktiğinde 134K token’ı aşan durumlar oluşabiliyor
  • Tool Search Tool, araçları on-demand şekilde arayıp yüklüyor
    • İlk yüklemede yalnızca yaklaşık 500 token kullanılıyor, ardından sadece gereken araçlar ek olarak yükleniyor
    • Toplam token kullanımı yaklaşık 8.7K’ye düşüyor ve bağlamda %95 tasarruf sağlanıyor
  • İç test sonuçlarına göre MCP değerlendirme doğruluğu Opus 4: %49→%74, Opus 4.5: %79.5→%88.1 seviyesine yükseldi
  • defer_loading: true ayarı ile araçlar gecikmeli yüklenebiliyor
    • Sık kullanılan araçlar sürekli yüklü tutulup diğerleri arama anında getirilebiliyor
  • Regex ve BM25 tabanlı arama araçları varsayılan olarak sunuluyor; embedding tabanlı özel arama da mümkün
  • Önerilen kullanım koşulları: 10’dan fazla araç, 10K token’dan büyük tanımlar, sık araç seçme hatalarının görüldüğü ortamlar

Programmatic Tool Calling

  • Mevcut doğal dil tabanlı çağrılar, ara sonuçların birikmesi ve çoklu akıl yürütme geçişleri nedeniyle verimsizlik yaratıyor
    • Örnek: 10MB’lık log analizi sırasında tüm verinin bağlama dahil edilmesi token israfına yol açıyor
  • Programmatic Tool Calling (PTC), araçları kod yürütme ortamında paralel olarak çağırıyor
    • Claude, Python kodu ile döngüler, koşullar ve veri dönüşümleri gerçekleştiriyor
    • Ara sonuçlar model bağlamına dahil edilmiyor, yalnızca nihai sonuç döndürülüyor
  • Örnek: Çeyreklik bütçe aşımı yapanları bulma görevinde 2.000 öğe yerine yalnızca 1KB’lık sonuç bağlama ekleniyor
  • Etkileri
    • Token kullanımı 43,588→27,297 (%37 azalma)
    • Daha düşük gecikme (20 çağrıda 19 akıl yürütme adımı ortadan kalkıyor)
    • Daha yüksek doğruluk: iç aramada %25.6→%28.5, GIA benchmark’ında %46.5→%51.2
  • Önerilen kullanım koşulları
    • Büyük veri özetleme, 3 adımdan fazla bağımlı çağrı, paralel yürütme gerektiren işler
    • Tek çağrı veya küçük yanıtlar için verimsiz olabilir

Tool Use Examples

  • JSON Schema yalnızca yapıyı tanımlar; kullanım kalıplarını, biçim kurallarını ve parametre ilişkilerini ifade edemez
    • Örnek: tarih biçimi, ID kuralları, iç içe nesnelerin hangi durumda kullanılacağı gibi noktalar belirsiz kalabilir
  • Tool Use Examples, araç tanımına gerçek giriş örnekleri (input_examples) ekliyor
    • Bu örnekler sayesinde Claude; tarih biçimini (YYYY-MM-DD), ID kurallarını (USR-XXXXX) ve isteğe bağlı parametre kombinasyonlarını öğrenebiliyor
  • İç testlerde karmaşık parametre işleme doğruluğu %72’den %90’a çıktı
  • Önerilen kullanım koşulları
    • İç içe yapılar ve çok sayıda isteğe bağlı parametre içeren araçlar
    • Alan kuralları Schema ile ifade edilemeyen API’ler
    • Benzer araçların birbirinden ayrılmasının gerektiği durumlar

Üç özelliğin birlikte kullanımı ve en iyi uygulamalar

  • Bu üç özellik birbirini tamamlayacak şekilde çalışıyor
    • Tool Search Tool → gerekli aracın keşfi
    • Programmatic Tool Calling → verimli yürütme
    • Tool Use Examples → doğru çağrı
  • Uygulama önceliği
    • Bağlam sınırının aşılması → Tool Search Tool
    • Ara sonuçların aşırı büyümesi → Programmatic Tool Calling
    • Parametre hataları → Tool Use Examples
  • Yapılandırma ipuçları
    • Arama doğruluğunu artırmak için araç adları ve açıklamaları net yazılmalı
    • Sık kullanılan 3–5 araç sürekli yüklü tutulmalı, kalanlar gecikmeli yüklenmeli
    • Kod yürütme için kullanılan araçlarda dönüş formatı açıkça belirtilmeli
    • Örnek veri gerçekçi ve kısa tutulmalı (1–5 örnek)

Başlarken

  • Üç özellik de beta sürümünde sunuluyor
    • betas=["advanced-tool-use-2025-11-20"] header’ı eklenerek kullanılabiliyor
    • Dahil araçlar: tool_search_tool_regex_20251119, code_execution_20250825 vb.
  • Resmî dokümantasyon ve GitHub cookbook içinde API örnekleri ve uygulama rehberleri yer alıyor
  • Bu özellikler, basit fonksiyon çağrılarının ötesine geçerek akıllı orkestrasyona evrilen temel teknoloji olarak sunuluyor
  • Özellikle karmaşık iş akışları ve büyük veri ortamlarında dinamik keşif, verimli yürütme ve doğru çağrı sağlayan çekirdek bileşenler olarak öne çıkarılıyor

5 yorum

 
kaydash 2025-11-27

Ama şimdilik bunun biraz model gücüyle ilgili olduğunu düşünüyorum. Claude'un sunduğu modeller olduğu için bu kadar iyi çalışıyor; diğer modellerde gerçekten nasıl olur... emin değilim.

 
beoks 2025-11-26

Anthropic, Google, OpenAI gibi şirketler arasında Anthropic'in Agentic AI'a en yakın olanı olduğu hissine kapılıyorum.

 
GN⁺ 2025-11-25
Hacker News görüşleri
  • Birden fazla tool call stream edilirken context kullanımını azaltmanın bir yolunu arıyorlar
    İşlemenin bir kısmını aracın kendisine offload ederek 200k tokenlık markdown’ı özet bir yapı olarak döndürmesini sağlıyorlar, ancak bu yaklaşım bile bazen ana modelin context’ini hızla doldurabiliyor

  • Programmatic Tool Calling’in doğal bir sonraki adım olduğunu düşünüyorum
    LLM’ler kodu bir dil gibi ele alma yönünde ilerlediği için, o dilin tanımı önemli
    Ancak tool search’ün gereksiz bir overhead olduğunu düşünüyorum. Gerekli araçları context’e önceden koymak daha verimli
    Sonuçta, fonksiyon tanımı kadar kısa bir tool definition language gerekiyor; nesneleri context’e koyup tiplerini ve çağrılabilir metotlarını tanımasını istiyorum

    • Bu kadar karmaşık bir yapı yerine .d.ts benzeri bir declaration dosyası vermek yeterli
      Bakımı ve testi de kolay olur; gerekirse export * as Foo from '@foo/foo' gibi içe aktarılabilir
      LLM kod yazmakta da iyi olduğu için, yazma izni verilirse araçları kendi oluşturabilir ya da içe aktarabilir
      İleride Jupyter/Pluto/Mathematica gibi interaktif AI↔insan iş birliği platformları daha uygun olabilir gibi görünüyor
      Sesli giriş eklenir ve oturumlar arası iş birliği de mümkün olursa, neredeyse Skynet seviyesinde bir sistem ortaya çıkar gibi duruyor
    • Neden ille de yeni bir dile ihtiyaç olduğunu anlamıyorum
      Benim yaptığım ajan, Python SDK’nin bazı özellikleri ve birkaç özel fonksiyonla gayet yeterli çalışıyor
      Bu tür pseudo-RPC yapıları gereksiz bir ritüel gibi geliyor
    • En yeni MCP spec (2025-06-18+) Structured Content ve Output Schema desteği sunuyor
      Smolagents bunu kullanarak araç çıktılarını nesne (dict) olarak ele alıyor
      Bu yaklaşımın benim kastettiğim yöne benzer olup olmadığını merak ediyorum
      Ayrıntılar Hugging Face blog yazısında var
  • MCP sunucusunun tool tanımına kullanım örnekleri ekleyip eklemeyeceğini merak ediyorum
    Eğer ekleyecekse, kod örnekleri de konulabilir ve böylece kod üretim adımı atlanabilir, ancak muhtemelen güvenlik sorunları nedeniyle buna izin verilmemiş
    Üçüncü tarafların sağladığı kodu çalıştırmak riskli olduğu için bu tasarım anlaşılabilir

  • Python’ın bir wrapper olarak kullanılmış olması biraz hayal kırıklığı yarattı
    Bash kullanılsaydı diller arası uyumluluk daha yüksek olur ve Python kullanmayan iş akışlarına da uyardı

    • Bence tam tersine Python daha iyi
      Harici araç çalıştırma kabiliyeti de Bash’ten aşağı kalmıyor
    • Sanırım insanların gerçekten kullandığı dilin Python olduğunu biliyorlardı ve bu yüzden o yöne gittiler
  • “Modelin yüzlerce, binlerce aracı sorunsuz yönettiği bir gelecek” fikri yanlış gibi görünüyor
    Bana göre doğru yön, daha az araç + onları daha iyi kullanma becerisi
    Uç noktada tek bir ShellTool bile yeterli olabilir

    • Elbette model her şeyi sıfırdan da yapabilir, ama zaten doğrulanmış bir araç varsa onu kullanmak daha iyi olur diye düşünüyorum
      İdeal olan, modelin kendi araçlarını oluşturup test ederek onlara güvenmeyi öğrenmesi
    • Ben de benzer düşünüyorum
      Connector ekosistemi anlaşılması kolay ve pazarlaması rahat, ama temelde yanlış bir paradigma gibi duruyor
  • Küçük bir yerel orkestratör model olsa iyi olur diye düşünüyorum
    Tüm iş akışını programatik olarak koordine etmek çoğu zaman verimsiz olabiliyor
    Context kirlenmesini azaltmak ve hızı artırmak için ideal yapı programmatic > tiny local LLM > frontier LLM olur
    Küçük model context’i sık sık sıfırlayıp yalnızca gerekli sonuçları büyük modele iletebilir

  • AI asistanları kullanırken tekrar eden bir örüntü var
    Verimsiz bir yöntemi bizzat iyileştiriyorsun, sonra birkaç ay sonra yeni bir araç çıkıyor ve yaptığın iş anlamsızlaşıyor
    Bunun, en güncel teknolojiyi kovalamanın bedeli olduğunu düşünüyorum

  • Bir gün tüm web’in milyarlarca araçtan oluşacağını düşünüyorum
    Google bunları indeksleyecek, Gemini de dinamik biçimde seçip dünyada eylem gerçekleştirecek
    Açıkçası bunu Gemini 3’te bekliyordum

  • Burada anlatılan özellik #2, son dönemde konuşulan “aracı doğrudan çağırmak yerine kod yazarak çağırma” fikrinin bir uygulaması
    Python sandbox içinde çalışıyor, API üzerinden de erişilebiliyor ve araç çağrılarını sıradan API çağrıları gibi sunuyor
    Batch tool calling zaten ürünümüzdeki AI asistanının hızını ciddi biçimde artırmıştı; bu yeni özellik de onun evrilmiş hali gibi görünüyor

  • Bizim agentic builder yalnızca tek bir araç kullanıyor — o da GraphQL
    Ajan sorguyu yazıp çalıştırıyor, gerekli bilgileri de introspection ile alıyor
    Yalnızca minimum veriyi aldığı için token tasarrufu sağlanıyor
    50’den fazla aracı yüklemek gerekmiyor, ayrıca REST API’deki N+1 sorunu da çözülüyor
    GraphQL typed schema sayesinde ajan daha iyi kod yazıyor
    Eskiden GraphQL’i sevmezdim ama MCP’nin mevcut durumuna bakınca, AI ajanları için en uygun teknolojilerden biri olduğunu düşünüyorum
    Ayrıntıları şu yazıda anlattım

    • Ben de benzer bir yaklaşım kullanıyorum
      Benim ajanım yalnızca bir SPARQL query çalıştırıyor ve durum sadece graph DB’de tutuluyor
      Ontolojilerin çoğu açık olduğu için schema introspection’a neredeyse hiç ihtiyaç olmuyor
      Structured output sayesinde yalnızca geçerli RDF üretmeye zorlanabiliyor
      GraphQL’de de benzer bir yaklaşım mümkün olabilir
    • Ancak bu her kullanım senaryosuna uymaz
      Ben web araması, yerel API çağrıları, Slack entegrasyonu gibi çeşitli işler yapmak zorundayım; bu yüzden tek başına GraphQL yetmiyor
    • GraphQL introspection, tanımların fazla uzaması nedeniyle token israfına yol açabiliyor ya da birden fazla çağrı gerektirebiliyor
    • Yine de bu, GraphQL’in gerçekten iyi bir kullanım örneği
      Yetkilendirme, caching ve mutation sorunları var ama seçici context yükleme açısından büyük bir etkisi yok
    • Biz de Exograph’ta aynı yaklaşımı benimsiyoruz (exograph.dev)
      LLM, schema’ya uyan GraphQL sorgularını oldukça iyi yazıyor
      Hata yapsa bile iyi hata mesajları verilince hızlıca düzeltiyor
      İlgili reasoning bu blog yazısında yer alıyor
 
kimjoin2 2025-11-25

Sonnet 4.5'in de oldukça iyi olduğunu düşünüyordum.
Ama Opus 4.5 daha da iyi gibi. Vay canına.

 
shakespeares 2025-11-25

Öyle mi? Başlıca hangi yönleri böyle?