9 puan yazan xguru 4 시간 전 | Henüz yorum yok. | WhatsApp'ta paylaş
  • Anthropic’in geliştirici konferansı: Çevrimiçi ve fiziksel olarak düzenleniyor; fiziksel etkinlikler San Francisco 6/5, Londra 19/5, Tokyo 10/6 tarihlerinde yapılacak. San Francisco etkinliğinde 19 oturumun videosu yayımlandı
  • Claude, daha uzun görev yürütme, uzun süreli bellek, daha fazla araç kullanımı, daha iyi doğrulama yönünde gelişiyor
  • Temel değişim, geliştiricilerin doğrudan kendilerinin kurduğu tekrarlı çalıştırma, araç seçimi, doğrulama, bellek, bağlam yönetimi gibi işlevlerin Claude ürünleri ve platformunun içine taşınması
  • Ürün ve organizasyon düzeyindeki farklılaşma, modeli nasıl çağırdığınızdan çok, modele hangi araçları, verileri, yetkileri ve bağlamı açtığınıza kayıyor
  • Kod yazımının kendisinden çok doğrulama, güvenlik, yetki yönetimi, gözlemlenebilirlik, değerlendirme sistemi, organizasyonel işletim yeni darboğazlar haline geliyor
  • Bundan sonra önemli alanlar özelleştirilmiş araçlar, güvenilir bellek, değerlendirme, güvenlik sınırları, bağlam mühendisliği (context engineering), ajan çalışma deneyimi (agent experience) olacak

Oturum 1 - Açılış konuşması

  • Odak, Claude Code ve Claude Platform için geliştiricilere daha iyi çalışan ürün iyileştirmeleri üzerindeydi
  • Kullanıcıların çoğu Claude API’yi ya da terminali doğrudan kullanmak yerine, Claude’u geliştiricilerin yaptığı ürünlerin içinde kullanıyor
  • Claude Platform API kullanım hacmi, geçen yıla göre neredeyse 17 kat arttı
  • Claude Code’un ortalama geliştiricisi, haftada 20 saat Claude çalıştırıyor
  • Claude Code’un 5 saatlik kullanım limiti, Pro, Max, Team ve seat-based Enterprise plans için iki katına çıkarıldı
  • Claude Opus API limiti de büyük ölçüde artırıldı
  • Bireysel geliştiricilere ve küçük ekiplere daha fazla hesaplama kaynağı sunmak için SpaceX’in Colossus One veri merkezi kapasitesinden yararlanılmak isteniyor
  • Opus 4.7, Amp, Rakuten ve Intuit’te kodlama ajanı performansını, planlama kalitesini ve gerçek mühendislik görevlerini çözme oranını artırdı
  • Gelecekteki Claude, daha iyi muhakeme, daha büyük bağlam ve bellek, birden fazla ajanın işbirliği yönünde ilerliyor

Oturum 2 - Claude Code’da neler yeni

  • Claude Code’un yeni özellikleri iki eksende toplanıyor: geliştirici kullanılabilirliği ve özerkliğin güçlendirilmesi
  • Remote Control, terminalde başlatılan bir oturumun web veya mobilde devam ettirilmesini sağlıyor
  • Full screen terminal UI, sanal scrollback kullanarak titreşimsiz render ve tıklanabilir araç çağrısı ekranı sunuyor
  • Claude Code GUI, birden fazla oturumu sabitleme, filtreleme, gruplama ve bölünmüş ekranla yönetebilecek şekilde değiştirildi
  • plan view, diff view ve files view içinde satır bazlı yorum bırakılabiliyor ve Claude bunları daha sonra topluca işleyebiliyor
  • Auto Mode, bir araç çağrısının yıkıcı olup olmadığını ya da prompt injection gibi görünüp görünmediğini sınıflandırıyor, ardından güvenliyse yetki onayı olmadan çalıştırıyor
  • worktree, birden fazla Claude oturumunun kendi izole branch’leri ve dosya kopyaları içinde paralel çalışmasını sağlıyor
  • auto memory, Claude’un proje bazlı memory.md ve ilgili dosyaları yönetmesini, build komutlarını, debug ipuçlarını ve proje tercihlerini sonraki oturumlarda yeniden kullanmasını sağlıyor
  • Routines ve /loop, cron, GitHub webhook ve API tetikleyicileriyle Claude Code oturumlarının otomatik çalıştırılmasını mümkün kılıyor

Oturum 3 - Kendi kendine öğrenen ajanlar için bellek ve dreaming

  • Memory, MCP, Claude Code, Agent SDK ve Skills sonrasındaki bir sonraki temel yapı taşı olarak ele alınıyor
  • Claude Managed Agents belleği, dosya sistemi gibi yapılandırılıyor; Claude bunu Bash ve Grep ile doğrudan düzenleyip güncelliyor
  • Opus 4.7, neyin saklanacağına, dosyaların nasıl bölüneceğine ve bellek yapısının nasıl korunacağına daha iyi karar veriyor
  • Birden fazla ajanın aynı bellek deposuna okuyup yazabilmesi için salt okunur organizasyon belleği ile okuma-yazma görev belleği ayrılabiliyor
  • Yüzlerce ajanın aynı anda belleği değiştirse bile birbirinin üstüne yazmaması için içerik hash tabanlı iyimser eşzamanlılık kontrolü kullanılıyor
  • Değişiklik geçmişi, yazan taraf, oturum ve zaman noktası tutuluyor; böylece kurumsal ortamlarda denetlenebilir bellek yönetimi sağlanıyor
  • Dreaming, son ajan oturumlarını ve transcript’leri eşzamansız analiz ederek tekrar eden hataları, başarılı stratejileri, yinelenen belleği ve eski belleği bulup düzenliyor
  • Harvey, Dreaming’i hukuk benchmark’larına uygulayarak bir hukuk senaryosunda görev tamamlama oranını 6 kat artırdı
  • SRE demosunda, ayrı ayrı bakıldığında kaçırılan 60 saniyelik retry kalıbını Dreaming bulup belleğe yansıttı
  • Hedef, bugünün ajan çalışmalarının yarının ajanlarını otomatik olarak daha iyi hale getirdiği sürekli öğrenme yapısı

Oturum 4 - Caching, harnesses, and advisors: GitHub ölçeğinde Claude üzerine inşa etmek

  • GitHub Copilot ölçeğinde prompt caching, maliyet ve gecikmeyi azaltmanın temel araçlarından biri haline geliyor
  • Hedef cache hit rate %94-96; %70 seviyesi ise prompt derleme ya da caching tasarımında sorun olduğuna işaret sayılıyor
  • Sistem prompt’u ve araç listesinin baş kısmı mümkün olduğunca statik tutulmalı
  • UUID, zaman bilgisi ve dinamik araç yükleme baş kısma girerse cache kolayca bozuluyor
  • Birden fazla model arasında geçiş yapan harness içinde de Opus çağrılarının önceki cache’i yeniden kullanabilmesi için cache uyumluluğu korunmalı
  • GitHub, yeni modelleri çevrimdışı benchmark, iç kullanım, A/B testleri, çevrimiçi değerlendirme (eval), yayın sonrası optimizasyon sırasıyla devreye alıyor
  • Advisor stratejisi, ucuz bir yürütme modelinin işlerin çoğunu yapması, kritik karar gerektiğinde ise Opus’un danışman olarak çağrılması üzerine kurulu
  • Kaliteyi ve maliyeti belirleyen şey, modelin kendisinden çok prompt, araçlar, cache, model seçimi, değerlendirme, çevrimiçi geri bildirim katmanını birlikte işleten operasyon katmanı

Oturum 5 - Genişleyen araç seti

  • Geçen yıl doğrudan yazılan yardımcı kodlar, artık modelin ve API’nin içine dahil ediliyor
  • Araç kullanımında manuel router ya da retry decorator yaklaşımının değeri azalıyor
  • Claude, araçları doğrudan bulabiliyor, başarısız araç çağrılarını görüp toparlanabiliyor ve yeniden çağırabiliyor
  • Araç yönergelerinde yalnızca girdileri değil, çıktı şemasını da yazmak faydalı
  • Çıktı yapısı önceden bilindiğinde Claude, gereksiz gidip gelmeler olmadan sonucu daha iyi kullanabiliyor
  • Claude Code’daki pre/post tool hook’lar, belirli çağrıları engellemek ya da sonuçları otomatik olarak kaydedip analiz etmek için kullanılabiliyor
  • 1 milyon token bağlam, sunucu tarafı sıkıştırma, bağlam düzenleme sayesinde uzun görevlerde bağlam yönetimi basitleşiyor
  • Eski ekran görüntüleri, arama sonuçları ve dosya okuma sonuçları periyodik olarak silinse bile, bunların oluşturduğu yargılar korunabiliyor
  • Opus 4.7, en fazla 1440p çözünürlüğe kadar özgün çözünürlüklü ekran görüntülerinden 1:1 piksel koordinatları döndürerek ekran otomasyonunda koordinat düzeltme yükünü azaltıyor
  • Model sınırlarını telafi eden kodun ömrü kısa; Claude’un göremediği araçlar, veriler, kimlik doğrulama ve alan bağlamını bağlayan kod ise daha uzun ömürlü kalıyor

Oturum 6 - Claude Managed Agents ile production’a daha hızlı nasıl geçilir

  • Claude Managed Agents, uzun süre çalışan operasyonel ajanlar için gerekli olan bağlam yönetimi, kimlik bilgisi yönetimi, güvenlik, erişim kontrolü, insan incelemesi ve gözlemlenebilirliği platformda bir araya getiriyor
  • Temel yapılandırma agent configuration, environment ve session’dan oluşuyor
  • session events ile kullanıcı etkinlikleri, ajan etkinlikleri, oturum etkinlikleri ve bölüm etkinlikleri görülebiliyor
  • Console; ayarlar, ortam, tam yürütme izi (trace), darboğazlar ve önerilen aksiyonları tek ekranda topluyor
  • outcomes, Claude’un önceden belirlenmiş bitiş kriterleri ve puanlama ölçütleri karşılanana kadar yineleme yapmasını sağlayan bir özellik
  • Birden fazla ajanın orkestrasyonu, bellek ve Dreaming de gelişmiş özellikler arasında ele alınıyor
  • Gösterge paneli demosunda agent; paralelleştirme, fast mode ve prompt optimizasyonunu bularak render süresini yaklaşık 37 saniyeden 10 saniyeye düşürüyor
  • Operasyonel ajanlar, yalnızca model çağrısı döngüsünden ibaret değil; izleme, darboğaz analizi, yetkilendirme ve doğrulamayı da birlikte sunmak zorunda

Oturum 7 - A conversation with Dario Amodei & Daniela Amodei

  • Anthropic, beklenenden hızlı kullanım ve gelir artışı nedeniyle işlem gücü sıkıntısı yaşamaya başladı
  • Ek işlem kapasitesi sağlayarak bunu geliştiricilere ve kullanıcılara daha fazla ulaştırmak istiyor
  • Geliştiriciler, Claude’un temel kullanıcıları ve yapay zekanın ekonominin geneline yayılışını ilk gösteren grup olarak görülüyor
  • Claude Code’daki bir sonraki değişim, bireysel üretkenlikten ekip ve organizasyon üretkenliğine geçiş olacak
  • Kod yazma hızı arttıkça güvenlik, doğrulama, güvenilirlik ve bakım yeni darboğazlar haline geliyor
  • Model yetenekleri hızla değiştiği için birkaç ay önce imkansız olan ürünler bir anda mümkün hale geliyor
  • API pazarı önemini korumaya devam edecek
  • Gelecekteki Claude, tek bir kişinin işine yardım etmenin ötesine geçerek organizasyon genelinde birden fazla insanın ve birden fazla ajanın yaptığı işleri büyütme yönünde ilerleyecek

Oturum 8 - Live coding session with Boris Cherny and Jarred Sumner

  • Bun’ın Robobun aracı, GitHub issue’larını otomatik olarak yeniden üretip testleri de içeren PR’lar oluşturuyor
  • Önceki sürümde başarısız olup düzeltme branch’inde geçen koşul, PR gönderimi için ölçüt olarak kullanılıyor
  • CLAUDE.md, build komutları, test komutları, test konumları, geçmiş başarısızlık kalıpları, klasör yapısı ve CI log’larının nasıl okunacağını içeren bir ajan operasyon dokümanı haline geliyor
  • CodeRabbit, Claude Code Review ve Robobun birlikte kullanılarak stil, CLAUDE.md uyumu ve diff dışındaki sınır koşullarının incelenmesi otomatikleştiriliyor
  • Claude Code ve Opus 4.7, hedef, ölçüm yöntemi ve doğrulama döngüsü net olduğunda performansı kademeli olarak yükselten işler için çok uygun
  • Darboğaz, kod yazımından planlama ve doğrulamaya kayıyor
  • Agent tarafından oluşturulan PR’lar, mutlaka birleştirilmesi gereken sonuçlar değil; incelenebilir öneriler olarak ele alınabiliyor
  • Agent PR’ları artsa bile insanların merge ölçütü düşmüyor, aksine yükselebiliyor

Oturum 9 - Building with Claude Managed Agents and Asana AI teammates

  • Asana’nın AI teammates yaklaşımı, şirket içinde gerçek iş arkadaşları gibi çalışan ajanları hedefliyor
  • Ajanlar birer actor haline gelerek onaylar, workflow’lar ve çok aşamalı işleri insanlarla birlikte yürütüyor
  • Birçok şirkette ajan kullanımı hâlâ bir kişinin sonucu alıp bir sonrakine devrettiği tek kullanıcılı akışta kalıyor
  • Asana ise birden fazla kişinin aynı ajanla etkileşime girdiği, bilginin ve belleğin biriktiği ortak çalışma akışlarını hedefliyor
  • Asana work graph, hedefler, portföyler, projeler, görevler, onaylar ve geçmiş kararları birbirine bağlayarak ajan bağlamı olarak kullanılıyor
  • AI teammate, paylaşılan ayarlar, role-based access control ve denetlenebilirlik ile insan iş arkadaşı gibi sistemlere dahil oluyor
  • Claude Managed Agents, kampanya planı yazımı ve HTML landing page mockup üretimi gibi çok aşamalı işleri yürütüyor
  • Asana; insan arayüzü, kurumsal bağlam, güvenlik ve denetlenebilirliğe odaklanırken Claude Managed Agents doğrulama döngüleri, grader’lar, outcomes ve çoklu ajan yürütmeyi üstleniyor
  • 21’den fazla önceden oluşturulmuş AI teammates, PMO, pazarlama, IT, HR ve R&D işlerine uygun şekilde sunuluyor
  • Geri bildirimler ajan belleğinde kalıyor ve sonraki kullanıcının aynı hataları yeniden yaşamasını engelliyor

Oturum 10 - Running an AI-native engineering org

  • AI-native mühendislik organizasyonlarında kod üretim kapasitesi artık en pahalı darboğaz olmaktan çıkıyor
  • Doğrulama, inceleme, güvenlik, bakım ve disiplinler arası koordinasyon yeni büyük darboğazlar olarak öne çıkıyor
  • 6 aylık roadmap’ler veya her iş için baştan hazırlanan tasarım belgeleri yerine, doğru anda plan yapıp hızla prototip üretmeye dayalı akış Claude Code ekibine daha uygun
  • Teknik tartışmalar, uzun whiteboard oturumları yerine birden fazla uygulama PR’ı üretip gerçek etkiyi ve API biçimini karşılaştırmaya kayıyor
  • Kod üretimi kolaylaştıkça test, otomasyon ve daha erken doğrulama daha da önemli hale geliyor
  • “Bu kodu kim yazdı?” sorusundan çok, regresyonun nedenini, uzman yanıtı gerekip gerekmediğini ve bağlam toplamanın amacını ayırt etmek önem kazanıyor
  • Claude Code ekibi; stil, lint, PR geri bildirimleri, bazı bug düzeltmeleri ve test eklemelerini Claude’a bırakıyor
  • Hukuki inceleme, güvenliğe duyarlı kodlar, güven sınırları ve ürün sezgisi ise insan uzmanlar tarafından incelenmeye devam ediyor
  • İşe alımlarda basit çıktı hacminden çok ürün sezgisine sahip yaratıcı geliştiriciler ile derin sistem uzmanlığı daha fazla önemseniyor
  • Başarı metrikleri olarak onboarding süresinin kısalması, PR döngüsünün hızlanması ve Claude yardımıyla yapılan commit’lerin artması izlenebilir

Oturum 11 - Building AI-native: Inside the stacks powering Cognition, Gamma, and Harvey

  • Gamma, tool calling ve ajan orkestrasyonundaki iyileştirmeleri ürüne hızla yansıtarak ajan tabanlı düzenleme akışını güçlendiriyor
  • Gamma, MCP connector’ları yalnızca entegrasyon özelliği olarak değil, müşteri edinimi ve iş akışı giriş noktası olarak da kullanıyor
  • Cognition, modelin kod düzenleme, dosya sistemi kullanımı ve uzun süreli planlamada daha başarılı hale gelmesiyle bazı dahili planlama ve bellek sistemlerini azaltıyor
  • Harvey, foundation model, reasoning model ve coding agent alanlarındaki her kırılma noktasında ürün mimarisini yeniden tasarlıyor
  • Harvey’in mevcut platform yeteneklerine, agent-native bir yapı olmadan ulaşmak zor olurdu
  • AI-native ürünler, mevcut mimarinin 6-12 ay içinde eskiyebileceği varsayımıyla tasarlanmalı
  • Kayıt, gözlemlenebilirlik, yeniden oynatma ve değerlendirme, hızlı mimari değişimlere yanıt verebilmek için zorunlu mekanizmalar haline geliyor
  • Hukuk gibi hassas alanlarda, açık veri, kapalı veri, bellek ve ajan akışları arasında güçlü veri sınırları gerekiyor
  • Belirli bir modelin sınırlarına göre optimize edilen mimarilerden çok, bir sonraki yetenek sıçramasını hızla soğurabilecek mimariler önem kazanıyor

Oturum 12 - Architecting for model step-changes: A fireside with Vercel's Guillermo Rauch

  • Vercel, ajan odaklı altyapıyı temel yönelim olarak görüyor
  • Bulut, kendi kendini onaran, optimize eden ve ayarlarını değiştiren bir altyapıya doğru genişleyebilir
  • AI Gateway, tokenlar için bir CDN gibi ele alınıyor
  • Birden çok sağlayıcıyı ve modeli yöneten, yönlendirme, arıza yönetimi ve maliyet kontrolünü üstlenen bir katman haline geliyor
  • Opus tokenları, kullanım payına kıyasla harcama payında çok daha büyük yer tuttuğu için, yüksek zekâlı modelleri ürüne eklerken maliyet yapısını net görmek gerekiyor
  • Opus 4.5 devreye alındıktan sonra V0, önceki modelleri telafi eden dil denetimi, otomatik düzeltme ve bazı işleme adımlarını sadeleştirebildi
  • Model yeteneklerindeki sıçrama, yalnızca yeni özellikler eklemekle kalmayıp mevcut telafi kodlarını kaldıran bir değişime de yol açıyor
  • V0 içinde Opus kullanımı genişledikten sonra ürün kredi harcaması 2 katına çıktı
  • Gelecekte yalnızca CLI ve UI tabanlı geliştirme değil, aynı zamanda asenkron ve insan gözetiminin daha az olduğu ajanlar da daha fazla büyüyebilir

Oturum 13 - The thinking lever

  • Test zamanı hesaplama (test-time compute), Claude’un akıl yürütme sırasında daha fazla token ve zaman kullanarak zor problemleri çözmesini sağlayan eksendir
  • Aynı Opus 4.7 bile low, high, max effort seviyelerine göre trafik simülasyonu kalitesinde büyük fark yaratıyor
  • Daha fazla zaman ve token kullanıldıkça grafikler, trafik akışı ve araç hareketleri daha gerçekçi hale geliyor
  • Claude’un kullandığı tokenlar düşünme tokenları, araç çağrısı tokenları ve metin tokenları olarak ayrılıyor
  • Düşünme tokenları iç akıl yürütme için, araç çağrısı tokenları dış dünyayla etkileşim için, metin tokenları ise kullanıcıyla iletişim için kullanılıyor
  • effort, zaman, maliyet ve kalite dengesi için bir ayar mekanizmasıdır
  • Task Budgets, Claude’un belirli bir görevde kullanabileceği token, zaman ve maliyet için üst sınır koymayı sağlar
  • Uyarlanabilir düşünme (adaptive thinking), Claude’un ihtiyaç duyduğu anda düşünme, araç kullanma ve kullanıcıya yanıt verme sırasını özgürce seçmesini sağlar
  • coding ve agentic use case’lerde extra high, iyi bir varsayılan olarak görülüyor
  • Basit büyük ölçekli sınıflandırma ya da çıkarım işlerinde küçük modeller avantajlıyken, zekâ gerektiren işleri hızlı bitirmek için büyük modellerin düşük effort seviyesi daha iyi olabilir

Oturum 14 - How Datadog built a universal machine tool for Claude Code

  • Datadog mühendislerinin yaklaşık %90’ı üretim kodunda yapay zeka kodlama araçları kullanıyor
  • Bunların en az 2/3’ü Claude Code kullanıyor
  • Yapay zeka kodlama araçlarının kullanım alanı, tekil fonksiyonlar, testler ve bağlantı kodlarından sistem düzeyindeki işlere doğru genişliyor
  • Darboğaz, kod yazımından geri bildirim döngülerine ve üretim doğrulamasına kayıyor
  • Helix deneyinde Claude Code, Kafka benzeri bir streaming servisini birkaç gün içinde oluşturabildi
  • Bunu üretim ortamına taşımak için shadowing, doğrulama basamakları ve sistem kilometresi gerekiyor
  • Tempor, ajanın doğaçlama araçlar üretmesi yerine önce durumları, geçişleri, etkileri ve değişmezleri içeren bir plan çıkarmasını sağlıyor
  • Geçiş tabloları, politika dokümanları, tipli etkiler, doğrulayıcılar ve özellik testleri, ajanın ürettiği yazılımı denetlenebilir kılıyor
  • Ajana özgürlük vermek için, üretim sisteminin değişmezlerini ve doğrulama süreçlerini makinenin okuyabileceği hale getirmek gerekiyor

Oturum 15 - Building with Claude on Google Cloud

  • Google Cloud üzerinde Claude Code kurmanın en kolay yolu olarak Application Default Credentials tabanlı kurulum sihirbazı kullanılıyor
  • Kurulum sihirbazı project, region ve kullanılabilir model’leri algılayıp sabitleyebiliyor
  • Google Cloud’da Claude model’lerini kullanınca token tabanlı ücretlendirme, provisioned throughput, API key değiştirme yükünün azalması, project politikalarının uygulanması, verinin project içinde kalması ve regional/global endpoint’ler kullanılabiliyor
  • Demoda PM, UI/UX designer, software engineer, security engineer ve data/growth marketer olmak üzere beş rolün tek bir geri bildirim uygulamasını uçtan uca oluşturduğu akış gösteriliyor
  • PM, elde çizilmiş bir wireframe’i Claude Code’a vererek hızlıca prototip oluşturuyor
  • UI/UX aşamasında plan mode kullanılarak Claude’un uygulamadan önce planı çıkarması sağlanıyor
  • Google Cloud developer knowledge API ve MCP server, en güncel dokümantasyonu ve mimari rehberliğini Claude Code’a bağlıyor
  • Google Cloud Skills, Cloud Run API dağıtımı ve Cloud Run ile Firestore bağlantısı gibi tekil blokların uygulanmasına yardımcı olmak için kullanılıyor
  • sub-agent kullanılarak API, toplama pipeline’ı ve dashboard uygulaması paralel yürütülüyor
  • security review prompt, OWASP sorunlarını veya service account izinlerini kontrol ediyor, bulunan sorunları düzelttikten sonra Cloud Run’a dağıtım yapıyor

Oturum 16 - Getting more out of the Claude Platform

  • Üretim amaçlı ajan optimizasyonunda öncelikler prompt caching, bağlam mühendisliği (context engineering) ve Advisor stratejisidir
  • Prompt caching, girdi token maliyetini düşürür, ilk tokene kadar geçen süreyi azaltır ve cache’lenmiş tokenların kullanım kotası yükünü hafifletir
  • Cache isabet oranında hedef %90’lar seviyesidir
  • Prompt’un ilk kısmındaki kararlılık, araç tanımlarının konumu ve dinamik değerlerin nereye eklendiği cache’i etkiler
  • Araç arama aracı (tool search tool), yalnızca gereken araç tanımlarını tam zamanında yükleyerek bağlamdan tasarruf sağlar
  • Tüm araçları baştan eklemek hem bağlam hem de cache üzerinde büyük yük oluşturur
  • Programatik araç çağrısı (programmatic tool calling), çok sayıdaki araç sonucunu olduğu gibi eklemek yerine yalnızca gerekli parçaları seçip bağlama koyar
  • Sıkıştırma (compaction), eski konuşmaları ve araç sonuçlarını azaltarak uzun görevlerin sürmesini sağlar
  • Advisor stratejisinde işlerin çoğunu Sonnet veya Haiku yapar, yalnızca kritik karar gerektiğinde Opus danışman olarak çağrılır
  • Asıl mesele modeli daha fazla çağırmak değil, modelin hangi bağlam, araç ve cache yapısı içinde çalışacağını tasarlamaktır

Oturum 17 - Evaluating and improving Replit Agent at scale

  • Replit Agent kullanıcıları, framework veya test belirtmeden yalnızca doğal dille çalışan bir uygulama bekliyor
  • Genel kodlama benchmark’larında olduğu gibi sadece yamanın testi geçip geçmediğine bakarak Replit Agent kalitesini ölçmek zor
  • Değerlendirmenin, uygulamanın kullanıcının istediği şekilde çalışıp çalışmadığına bakması gerekiyor
  • Replit, çevrimdışı değerlendirme ile çevrimiçi değerlendirmeyi birlikte kullanıyor
  • Çevrimdışı değerlendirme, yeni agent release öncesinde bir geçit görevi görüyor; çevrimiçi değerlendirme ise gerçek kullanım sonrasında hızlı yanıt vermek için kullanılıyor
  • VibeBench, girdi olarak 20 gerçek PRD alıp boş bir depodan uygulama oluşturan ve otomatik değerlendiricinin tarayıcıda uygulamayı test ettiği açık bir benchmark’tır
  • Modellerin çoğu, kendi yazdıkları kodu yeniden genişletmeleri gerektiğinde daha çok zorlanıyor
  • Özellikler arasına test ve doğrulama adımları koymak, sallanan bir temel üzerine inşa etmeyi sürdürmeyi azaltabilir
  • Telescope, üretim çalışma izlerini anlamsal olarak gruplayıp uzun kuyruklu hataları bulan, sorunları sınıflandıran, agent’ın PR oluşturmasını sağlayan ve bunu VibeBench veya A/B testleriyle doğrulayan dahili bir sistemdir
  • Değerlendirme, son sürüm öncesi bir kontrol listesi değil, ajanı her gün iyileştiren bir motor haline geliyor

Oturum 18 - The capability curve

  • Claude Code kullanıcıları geçen yıla kıyasla daha büyük güvenle ve daha hızlı dağıtım yapıyor
  • Sunum sırasındaki katılımcı anketinde birçok katılımcı, Claude ile 10 kat, 5 kat, 2 kat hız artışı hissettiklerini söyledi
  • SWE-bench Verified üzerinde Sonnet 3.7 yaklaşık %62, Opus 4.7 ise %87 elde etti
  • Opus 4.7, Sonnet 3.7’nin başarısız olduğu zor PR’ları başarıya ulaştırma olasılığında 3 kattan fazla artış sağladı
  • Aynı prompt ile Claude.ai’yi yeniden üretmeye yönelik demoda, önceki model genel bir sohbet arayüzü ve hatalar üretirken, Opus 4.7 Claude renklerini, API yanıtlarını, sohbet geçmişini, satır içi grafikleri ve dark mode’u uyguladı
  • İyileşen alanlar planlama, hata toparlama, uzun çalışmalarda dikkati koruma oldu
  • Yeni model önce plan yapıyor, başarısız olursa geri dönüyor ve uzun bağlamlarda bile sistem prompt’unu ve hedefleri daha iyi koruyor
  • Gerçek iyileşmeleri görmek için ürüne daha yakın dağılımda değerlendirmeler oluşturmak gerekiyor
  • Model iyileştikçe mevcut değerlendirmeler kolayca doygunluğa ulaştığından, değerlendirmelerin de sürekli zorlaşması gerekiyor
  • Yeni bir frontier model çıktığında, mevcut kalibrasyon süreçleriyle prompt’ları yeniden azaltmayı denemek gerekiyor

Oturum 19 - Giving coding agents their own computers: How Cursor built cloud agents

  • Cursor, darboğazın model zekasından çok insanların modele yeterli araç, bağlam ve büyük hedefler verememesinde olduğunu düşünüyor
  • Nasıl insan geliştiriciler onboarding sürecinden geçiyorsa, agent’lara da bilgisayar, geliştirme ortamı ve dokümantasyon verilmesi gerekiyor
  • Cursor’ın onboarding agent’ı depoyu tarıyor ve uygulamanın nasıl çalıştırılacağını, servisleri, ortam değişkenlerini ve izinleri belirliyor
  • AnyDev CLI, agent’ların servisleri başlatmasına, hazır olma durumunu beklemesine, durumu kontrol etmesine ve hatta test hesabı oluşturma veya giriş yapma işlemlerini yürütmesine yardımcı olan bir araç
  • Agent geliştirme ortamı iyileştikçe geliştiriciler daha fazla cloud agent çalıştırıyor ve daha büyük işleri onlara veriyor
  • Otonominin temel ilkesi, agent’lara göz, araçlar ve iyi bağlam vermek
  • Agent’lar da insanlar gibi uygulama durumunu, diğer agent konuşmalarını ve servis durumunu görebilmeli
  • Cursor, computer use kavramını kodlamadan sonraki önemli bir temel yapı taşı olarak görüyor
  • Claude 4.7, agent’ın bir özelliği doğrulamak için doğrudan uçtan uca demo kaydetmesine ve insanın kod incelemesinden önce sonucu hızlıca anlamasına yardımcı oluyor
  • Cursor, agent experience kavramını ayrı bir tasarım hedefi olarak görüyor; agent can sıkıcı, bozuk ya da kafa karıştırıcı akışlarla karşılaştığında bunu work on the factory sorunu olarak kaydetmesini istiyor
  • Nihai hedef, insanın süreci A’dan D’ye kadar elle yönlendirmesi değil, A’dan Z’ye kadar çözebilen bir sistem kurmak

Henüz yorum yok.

Henüz yorum yok.