Code w/ Claude’da Duyurulan Her Şey

xguru · 2026-05-14T11:50:02+09:00

Anthropic’in geliştirici konferansı: Çevrimiçi ve fiziksel olarak düzenleniyor; fiziksel etkinlikler San Francisco 6/5, Londra 19/5, Tokyo 10/6 tarihlerinde yapılacak. San Francisco etkinliğinde 19 oturumun videosu yayımlandı Claude, daha uzun görev yürütme, uzun süreli bellek, daha fazla araç kullanımı, daha iyi doğrulama yönünde gelişiyor Temel değişim, geliştiricilerin doğrudan kendilerinin kurduğu tekrarlı çalıştırma, araç seçimi, doğrulama, bellek, bağlam yönetimi gibi işlevlerin Claude ürünleri ve platformunun içine taşınması Ürün ve organizasyon düzeyindeki farklılaşma, modeli nasıl çağırdığınızdan çok, modele hangi araçları, verileri, yetkileri ve bağlamı açtığınıza kayıyor Kod yazımının kendisinden çok doğrulama, güvenlik, yetki yönetimi, gözlemlenebilirlik, değerlendirme sistemi, organizasyonel işletim yeni darboğazlar haline geliyor Bundan sonra önemli alanlar özelleştirilmiş araçlar, güvenilir bellek, değerlendirme, güvenlik sınırları, bağlam mühendisliği (context engineering), ajan çalışma deneyimi (agent experience) olacak Oturum 1 - Açılış konuşması Odak, Claude Code ve Claude Platform için geliştiricilere daha iyi çalışan ürün iyileştirmeleri üzerindeydi Kullanıcıların çoğu Claude API’yi ya da terminali doğrudan kullanmak yerine, Claude’u geliştiricilerin yaptığı ürünlerin içinde kullanıyor Claude Platform API kullanım hacmi, geçen yıla göre neredeyse 17 kat arttı Claude Code’un ortalama geliştiricisi, haftada 20 saat Claude çalıştırıyor Claude Code’un 5 saatlik kullanım limiti, Pro, Max, Team ve seat-based Enterprise plans için iki katına çıkarıldı Claude Opus API limiti de büyük ölçüde artırıldı Bireysel geliştiricilere ve küçük ekiplere daha fazla hesaplama kaynağı sunmak için SpaceX’in Colossus One veri merkezi kapasitesinden yararlanılmak isteniyor Opus 4.7, Amp, Rakuten ve Intuit’te kodlama ajanı performansını, planlama kalitesini ve gerçek mühendislik görevlerini çözme oranını artırdı Gelecekteki Claude, daha iyi muhakeme, daha büyük bağlam ve bellek, birden fazla ajanın işbirliği yönünde ilerliyor Oturum 2 - Claude Code’da neler yeni Claude Code’un yeni özellikleri iki eksende toplanıyor: geliştirici kullanılabilirliği ve özerkliğin güçlendirilmesi Remote Control, terminalde başlatılan bir oturumun web veya mobilde devam ettirilmesini sağlıyor Full screen terminal UI, sanal scrollback kullanarak titreşimsiz render ve tıklanabilir araç çağrısı ekranı sunuyor Claude Code GUI, birden fazla oturumu sabitleme, filtreleme, gruplama ve bölünmüş ekranla yönetebilecek şekilde değiştirildi plan view, diff view ve files view içinde satır bazlı yorum bırakılabiliyor ve Claude bunları daha sonra topluca işleyebiliyor Auto Mode, bir araç çağrısının yıkıcı olup olmadığını ya da prompt injection gibi görünüp görünmediğini sınıflandırıyor, ardından güvenliyse yetki onayı olmadan çalıştırıyor worktree, birden fazla Claude oturumunun kendi izole branch’leri ve dosya kopyaları içinde paralel çalışmasını sağlıyor auto memory, Claude’un proje bazlı memory.md ve ilgili dosyaları yönetmesini, build komutlarını, debug ipuçlarını ve proje tercihlerini sonraki oturumlarda yeniden kullanmasını sağlıyor Routines ve /loop, cron, GitHub webhook ve API tetikleyicileriyle Claude Code oturumlarının otomatik çalıştırılmasını mümkün kılıyor Oturum 3 - Kendi kendine öğrenen ajanlar için bellek ve dreaming Memory, MCP, Claude Code, Agent SDK ve Skills sonrasındaki bir sonraki temel yapı taşı olarak ele alınıyor Claude Managed Agents belleği, dosya sistemi gibi yapılandırılıyor; Claude bunu Bash ve Grep ile doğrudan düzenleyip güncelliyor Opus 4.7, neyin saklanacağına, dosyaların nasıl bölüneceğine ve bellek yapısının nasıl korunacağına daha iyi karar veriyor Birden fazla ajanın aynı bellek deposuna okuyup yazabilmesi için salt okunur organizasyon belleği ile okuma-yazma görev belleği ayrılabiliyor Yüzlerce ajanın aynı anda belleği değiştirse bile birbirinin üstüne yazmaması için içerik hash tabanlı iyimser eşzamanlılık kontrolü kullanılıyor Değişiklik geçmişi, yazan taraf, oturum ve zaman noktası tutuluyor; böylece kurumsal ortamlarda denetlenebilir bellek yönetimi sağlanıyor Dreaming, son ajan oturumlarını ve transcript’leri eşzamansız analiz ederek tekrar eden hataları, başarılı stratejileri, yinelenen belleği ve eski belleği bulup düzenliyor Harvey, Dreaming’i hukuk benchmark’larına uygulayarak bir hukuk senaryosunda görev tamamlama oranını 6 kat artırdı SRE demosunda, ayrı ayrı bakıldığında kaçırılan 60 saniyelik retry kalıbını Dreaming bulup belleğe yansıttı Hedef, bugünün ajan çalışmalarının yarının ajanlarını otomatik olarak daha iyi hale getirdiği sürekli öğrenme yapısı Oturum 4 - Caching, harnesses, and advisors: GitHub ölçeğinde Claude üzerine inşa etmek GitHub Copilot ölçeğinde prompt caching, maliyet ve gecikmeyi azaltmanın temel araçlarından biri haline geliyor Hedef cache hit rate %94-96; %70 seviyesi ise prompt derleme ya da caching tasarımında sorun olduğuna işaret sayılıyor Sistem prompt’u ve araç listesinin baş kısmı mümkün olduğunca statik tutulmalı UUID, zaman bilgisi ve dinamik araç yükleme baş kısma girerse cache kolayca bozuluyor Birden fazla model arasında geçiş yapan harness içinde de Opus çağrılarının önceki cache’i yeniden kullanabilmesi için cache uyumluluğu korunmalı GitHub, yeni modelleri çevrimdışı benchmark, iç kullanım, A/B testleri, çevrimiçi değerlendirme (eval), yayın sonrası optimizasyon sırasıyla devreye alıyor Advisor stratejisi, ucuz bir yürütme modelinin işlerin çoğunu yapması, kritik karar gerektiğinde ise Opus’un danışman olarak çağrılması üzerine kurulu Kaliteyi ve maliyeti belirleyen şey, modelin kendisinden çok prompt, araçlar, cache, model seçimi, değerlendirme, çevrimiçi geri bildirim katmanını birlikte işleten operasyon katmanı Oturum 5 - Genişleyen araç seti Geçen yıl doğrudan yazılan yardımcı kodlar, artık modelin ve API’nin içine dahil ediliyor Araç kullanımında manuel router ya da retry decorator yaklaşımının değeri azalıyor Claude, araçları doğrudan bulabiliyor, başarısız araç çağrılarını görüp toparlanabiliyor ve yeniden çağırabiliyor Araç yönergelerinde yalnızca girdileri değil, çıktı şemasını da yazmak faydalı Çıktı yapısı önceden bilindiğinde Claude, gereksiz gidip gelmeler olmadan sonucu daha iyi kullanabiliyor Claude Code’daki pre/post tool hook’lar, belirli çağrıları engellemek ya da sonuçları otomatik olarak kaydedip analiz etmek için kullanılabiliyor 1 milyon token bağlam, sunucu tarafı sıkıştırma, bağlam düzenleme sayesinde uzun görevlerde bağlam yönetimi basitleşiyor Eski ekran görüntüleri, arama sonuçları ve dosya okuma sonuçları periyodik olarak silinse bile, bunların oluşturduğu yargılar korunabiliyor Opus 4.7, en fazla 1440p çözünürlüğe kadar özgün çözünürlüklü ekran görüntülerinden 1:1 piksel koordinatları döndürerek ekran otomasyonunda koordinat düzeltme yükünü azaltıyor Model sınırlarını telafi eden kodun ömrü kısa; Claude’un göremediği araçlar, veriler, kimlik doğrulama ve alan bağlamını bağlayan kod ise daha uzun ömürlü kalıyor Oturum 6 - Claude Managed Agents ile production’a daha hızlı nasıl geçilir Claude Managed Agents, uzun süre çalışan operasyonel ajanlar için gerekli olan bağlam yönetimi, kimlik bilgisi yönetimi, güvenlik, erişim kontrolü, insan incelemesi ve gözlemlenebilirliği platformda bir araya getiriyor Temel yapılandırma agent configuration, environment ve session’dan oluşuyor session events ile kullanıcı etkinlikleri, ajan etkinlikleri, oturum etkinlikleri ve bölüm etkinlikleri görülebiliyor Console; ayarlar, ortam, tam yürütme izi (trace), darboğazlar ve önerilen aksiyonları tek ekranda topluyor outcomes, Claude’un önceden belirlenmiş bitiş kriterleri ve puanlama ölçütleri karşılanana kadar yineleme yapmasını sağlayan bir özellik Birden fazla ajanın orkestrasyonu, bellek ve Dreaming de gelişmiş özellikler arasında ele alınıyor Gösterge paneli demosunda agent; paralelleştirme, fast mode ve prompt optimizasyonunu bularak render süresini yaklaşık 37 saniyeden 10 saniyeye düşürüyor Operasyonel ajanlar, yalnızca model çağrısı döngüsünden ibaret değil; izleme, darboğaz analizi, yetkilendirme ve doğrulamayı da birlikte sunmak zorunda Oturum 7 - A conversation with Dario Amodei & Daniela Amodei Anthropic, beklenenden hızlı kullanım ve gelir artışı nedeniyle işlem gücü sıkıntısı yaşamaya başladı Ek işlem kapasitesi sağlayarak bunu geliştiricilere ve kullanıcılara daha fazla ulaştırmak istiyor Geliştiriciler, Claude’un temel kullanıcıları ve yapay zekanın ekonominin geneline yayılışını ilk gösteren grup olarak görülüyor Claude Code’daki bir sonraki değişim, bireysel üretkenlikten ekip ve organizasyon üretkenliğine geçiş olacak Kod yazma hızı arttıkça güvenlik, doğrulama, güvenilirlik ve bakım yeni darboğazlar haline geliyor Model yetenekleri hızla değiştiği için birkaç ay önce imkansız olan ürünler bir anda mümkün hale geliyor API pazarı önemini korumaya devam edecek Gelecekteki Claude, tek bir kişinin işine yardım etmenin ötesine geçerek organizasyon genelinde birden fazla insanın ve birden fazla ajanın yaptığı işleri büyütme yönünde ilerleyecek Oturum 8 - Live coding session with Boris Cherny and Jarred Sumner Bun’ın Robobun aracı, GitHub issue’larını otomatik olarak yeniden üretip testleri de içeren PR’lar oluşturuyor Önceki sürümde başarısız olup düzeltme branch’inde geçen koşul, PR gönderimi için ölçüt olarak kullanılıyor CLAUDE.md, build komutları, test komutları, test konumları, geçmiş başarısızlık kalıpları, klasör yapısı ve CI log’larının nasıl okunacağını içeren bir ajan operasyon dokümanı haline geliyor CodeRabbit, Claude Code Review ve Robobun birlikte kullanılarak stil, CLAUDE.md uyumu ve diff dışındaki sınır koşullarının incelenmesi otomatikleştiriliyor Claude Code ve Opus 4.7, hedef, ölçüm yöntemi ve doğrulama döngüsü net olduğunda performansı kademeli olarak yükselten işler için çok uygun Darboğaz, kod yazımından planlama ve doğrulamaya kayıyor Agent tarafından oluşturulan PR’lar, mutlaka birleştirilmesi gereken sonuçlar değil; incelenebilir öneriler olarak ele alınabiliyor Agent PR’ları artsa bile insanların merge ölçütü düşmüyor, aksine yükselebiliyor Oturum 9 - Building with Claude Managed Agents and Asana AI teammates Asana’nın AI teammates yaklaşımı, şirket içinde gerçek iş arkadaşları gibi çalışan ajanları hedefliyor Ajanlar birer actor haline gelerek onaylar, workflow’lar ve çok aşamalı işleri insanlarla birlikte yürütüyor Birçok şirkette ajan kullanımı hâlâ bir kişinin sonucu alıp bir sonrakine devrettiği tek kullanıcılı akışta kalıyor Asana ise birden fazla kişinin aynı ajanla etkileşime girdiği, bilginin ve belleğin biriktiği ortak çalışma akışlarını hedefliyor Asana work graph, hedefler, portföyler, projeler, görevler, onaylar ve geçmiş kararları birbirine bağlayarak ajan bağlamı olarak kullanılıyor AI teammate, paylaşılan ayarlar, role-based access control ve denetlenebilirlik ile insan iş arkadaşı gibi sistemlere dahil oluyor Claude Managed Agents, kampanya planı yazımı ve HTML landing page mockup üretimi gibi çok aşamalı işleri yürütüyor Asana; insan arayüzü, kurumsal bağlam, güvenlik ve denetlenebilirliğe odaklanırken Claude Managed Agents doğrulama döngüleri, grader’lar, outcomes ve çoklu ajan yürütmeyi üstleniyor 21’den fazla önceden oluşturulmuş AI teammates, PMO, pazarlama, IT, HR ve R&D işlerine uygun şekilde sunuluyor Geri bildirimler ajan belleğinde kalıyor ve sonraki kullanıcının aynı hataları yeniden yaşamasını engelliyor Oturum 10 - Running an AI-native engineering org AI-native mühendislik organizasyonlarında kod üretim kapasitesi artık en pahalı darboğaz olmaktan çıkıyor Doğrulama, inceleme, güvenlik, bakım ve disiplinler arası koordinasyon yeni büyük darboğazlar olarak öne çıkıyor 6 aylık roadmap’ler veya her iş için baştan hazırlanan tasarım belgeleri yerine, doğru anda plan yapıp hızla prototip üretmeye dayalı akış Claude Code ekibine daha uygun Teknik tartışmalar, uzun whiteboard oturumları yerine birden fazla uygulama PR’ı üretip gerçek etkiyi ve API biçimini karşılaştırmaya kayıyor Kod üretimi kolaylaştıkça test, otomasyon ve daha erken doğrulama daha da önemli hale geliyor “Bu kodu kim yazdı?” sorusundan çok, regresyonun nedenini, uzman yanıtı gerekip gerekmediğini ve bağlam toplamanın amacını ayırt etmek önem kazanıyor Claude Code ekibi; stil, lint, PR geri bildirimleri, bazı bug düzeltmeleri ve test eklemelerini Claude’a bırakıyor Hukuki inceleme, güvenliğe duyarlı kodlar, güven sınırları ve ürün sezgisi ise insan uzmanlar tarafından incelenmeye devam ediyor İşe alımlarda basit çıktı hacminden çok ürün sezgisine sahip yaratıcı geliştiriciler ile derin sistem uzmanlığı daha fazla önemseniyor Başarı metrikleri olarak onboarding süresinin kısalması, PR döngüsünün hızlanması ve Claude yardımıyla yapılan commit’lerin artması izlenebilir Oturum 11 - Building AI-native: Inside the stacks powering Cognition, Gamma, and Harvey Gamma, tool calling ve ajan orkestrasyonundaki iyileştirmeleri ürüne hızla yansıtarak ajan tabanlı düzenleme akışını güçlendiriyor Gamma, MCP connector’ları yalnızca entegrasyon özelliği olarak değil, müşteri edinimi ve iş akışı giriş noktası olarak da kullanıyor Cognition, modelin kod düzenleme, dosya sistemi kullanımı ve uzun süreli planlamada daha başarılı hale gelmesiyle bazı dahili planlama ve bellek sistemlerini azaltıyor Harvey, foundation model, reasoning model ve coding agent alanlarındaki her kırılma noktasında ürün mimarisini yeniden tasarlıyor Harvey’in mevcut platform yeteneklerine, agent-native bir yapı olmadan ulaşmak zor olurdu AI-native ürünler, mevcut mimarinin 6-12 ay içinde eskiyebileceği varsayımıyla tasarlanmalı Kayıt, gözlemlenebilirlik, yeniden oynatma ve değerlendirme, hızlı mimari değişimlere yanıt verebilmek için zorunlu mekanizmalar haline geliyor Hukuk gibi hassas alanlarda, açık veri, kapalı veri, bellek ve ajan akışları arasında güçlü veri sınırları gerekiyor Belirli bir modelin sınırlarına göre optimize edilen mimarilerden çok, bir sonraki yetenek sıçramasını hızla soğurabilecek mimariler önem kazanıyor Oturum 12 - Architecting for model step-changes: A fireside with Vercel's Guillermo Rauch Vercel, ajan odaklı altyapıyı temel yönelim olarak görüyor Bulut, kendi kendini onaran, optimize eden ve ayarlarını değiştiren bir altyapıya doğru genişleyebilir AI Gateway, tokenlar için bir CDN gibi ele alınıyor Birden çok sağlayıcıyı ve modeli yöneten, yönlendirme, arıza yönetimi ve maliyet kontrolünü üstlenen bir katman haline geliyor Opus tokenları, kullanım payına kıyasla harcama payında çok daha büyük yer tuttuğu için, yüksek zekâlı modelleri ürüne eklerken maliyet yapısını net görmek gerekiyor Opus 4.5 devreye alındıktan sonra V0, önceki modelleri telafi eden dil denetimi, otomatik düzeltme ve bazı işleme adımlarını sadeleştirebildi Model yeteneklerindeki sıçrama, yalnızca yeni özellikler eklemekle kalmayıp mevcut telafi kodlarını kaldıran bir değişime de yol açıyor V0 içinde Opus kullanımı genişledikten sonra ürün kredi harcaması 2 katına çıktı Gelecekte yalnızca CLI ve UI tabanlı geliştirme değil, aynı zamanda asenkron ve insan gözetiminin daha az olduğu ajanlar da daha fazla büyüyebilir Oturum 13 - The thinking lever Test zamanı hesaplama (test-time compute), Claude’un akıl yürütme sırasında daha fazla token ve zaman kullanarak zor problemleri çözmesini sağlayan eksendir Aynı Opus 4.7 bile low, high, max effort seviyelerine göre trafik simülasyonu kalitesinde büyük fark yaratıyor Daha fazla zaman ve token kullanıldıkça grafikler, trafik akışı ve araç hareketleri daha gerçekçi hale geliyor Claude’un kullandığı tokenlar düşünme tokenları, araç çağrısı tokenları ve metin tokenları olarak ayrılıyor Düşünme tokenları iç akıl yürütme için, araç çağrısı tokenları dış dünyayla etkileşim için, metin tokenları ise kullanıcıyla iletişim için kullanılıyor effort, zaman, maliyet ve kalite dengesi için bir ayar mekanizmasıdır Task Budgets, Claude’un belirli bir görevde kullanabileceği token, zaman ve maliyet için üst sınır koymayı sağlar Uyarlanabilir düşünme (adaptive thinking), Claude’un ihtiyaç duyduğu anda düşünme, araç kullanma ve kullanıcıya yanıt verme sırasını özgürce seçmesini sağlar coding ve agentic use case’lerde extra high, iyi bir varsayılan olarak görülüyor Basit büyük ölçekli sınıflandırma ya da çıkarım işlerinde küçük modeller avantajlıyken, zekâ gerektiren işleri hızlı bitirmek için büyük modellerin düşük effort seviyesi daha iyi olabilir Oturum 14 - How Datadog built a universal machine tool for Claude Code Datadog mühendislerinin yaklaşık %90’ı üretim kodunda yapay zeka kodlama araçları kullanıyor Bunların en az 2/3’ü Claude Code kullanıyor Yapay zeka kodlama araçlarının kullanım alanı, tekil fonksiyonlar, testler ve bağlantı kodlarından sistem düzeyindeki işlere doğru genişliyor Darboğaz, kod yazımından geri bildirim döngülerine ve üretim doğrulamasına kayıyor Helix deneyinde Claude Code, Kafka benzeri bir streaming servisini birkaç gün içinde oluşturabildi Bunu üretim ortamına taşımak için shadowing, doğrulama basamakları ve sistem kilometresi gerekiyor Tempor, ajanın doğaçlama araçlar üretmesi yerine önce durumları, geçişleri, etkileri ve değişmezleri içeren bir plan çıkarmasını sağlıyor Geçiş tabloları, politika dokümanları, tipli etkiler, doğrulayıcılar ve özellik testleri, ajanın ürettiği yazılımı denetlenebilir kılıyor Ajana özgürlük vermek için, üretim sisteminin değişmezlerini ve doğrulama süreçlerini makinenin okuyabileceği hale getirmek gerekiyor Oturum 15 - Building with Claude on Google Cloud Google Cloud üzerinde Claude Code kurmanın en kolay yolu olarak Application Default Credentials tabanlı kurulum sihirbazı kullanılıyor Kurulum sihirbazı project, region ve kullanılabilir model’leri algılayıp sabitleyebiliyor Google Cloud’da Claude model’lerini kullanınca token tabanlı ücretlendirme, provisioned throughput, API key değiştirme yükünün azalması, project politikalarının uygulanması, verinin project içinde kalması ve regional/global endpoint’ler kullanılabiliyor Demoda PM, UI/UX designer, software engineer, security engineer ve data/growth marketer olmak üzere beş rolün tek bir geri bildirim uygulamasını uçtan uca oluşturduğu akış gösteriliyor PM, elde çizilmiş bir wireframe’i Claude Code’a vererek hızlıca prototip oluşturuyor UI/UX aşamasında plan mode kullanılarak Claude’un uygulamadan önce planı çıkarması sağlanıyor Google Cloud developer knowledge API ve MCP server, en güncel dokümantasyonu ve mimari rehberliğini Claude Code’a bağlıyor Google Cloud Skills, Cloud Run API dağıtımı ve Cloud Run ile Firestore bağlantısı gibi tekil blokların uygulanmasına yardımcı olmak için kullanılıyor sub-agent kullanılarak API, toplama pipeline’ı ve dashboard uygulaması paralel yürütülüyor security review prompt, OWASP sorunlarını veya service account izinlerini kontrol ediyor, bulunan sorunları düzelttikten sonra Cloud Run’a dağıtım yapıyor Oturum 16 - Getting more out of the Claude Platform Üretim amaçlı ajan optimizasyonunda öncelikler prompt caching, bağlam mühendisliği (context engineering) ve Advisor stratejisidir Prompt caching, girdi token maliyetini düşürür, ilk tokene kadar geçen süreyi azaltır ve cache’lenmiş tokenların kullanım kotası yükünü hafifletir Cache isabet oranında hedef %90’lar seviyesidir Prompt’un ilk kısmındaki kararlılık, araç tanımlarının konumu ve dinamik değerlerin nereye eklendiği cache’i etkiler Araç arama aracı (tool search tool), yalnızca gereken araç tanımlarını tam zamanında yükleyerek bağlamdan tasarruf sağlar Tüm araçları baştan eklemek hem bağlam hem de cache üzerinde büyük yük oluşturur Programatik araç çağrısı (programmatic tool calling), çok sayıdaki araç sonucunu olduğu gibi eklemek yerine yalnızca gerekli parçaları seçip bağlama koyar Sıkıştırma (compaction), eski konuşmaları ve araç sonuçlarını azaltarak uzun görevlerin sürmesini sağlar Advisor stratejisinde işlerin çoğunu Sonnet veya Haiku yapar, yalnızca kritik karar gerektiğinde Opus danışman olarak çağrılır Asıl mesele modeli daha fazla çağırmak değil, modelin hangi bağlam, araç ve cache yapısı içinde çalışacağını tasarlamaktır Oturum 17 - Evaluating and improving Replit Agent at scale Replit Agent kullanıcıları, framework veya test belirtmeden yalnızca doğal dille çalışan bir uygulama bekliyor Genel kodlama benchmark’larında olduğu gibi sadece yamanın testi geçip geçmediğine bakarak Replit Agent kalitesini ölçmek zor Değerlendirmenin, uygulamanın kullanıcının istediği şekilde çalışıp çalışmadığına bakması gerekiyor Replit, çevrimdışı değerlendirme ile çevrimiçi değerlendirmeyi birlikte kullanıyor Çevrimdışı değerlendirme, yeni agent release öncesinde bir geçit görevi görüyor; çevrimiçi değerlendirme ise gerçek kullanım sonrasında hızlı yanıt vermek için kullanılıyor VibeBench, girdi olarak 20 gerçek PRD alıp boş bir depodan uygulama oluşturan ve otomatik değerlendiricinin tarayıcıda uygulamayı test ettiği açık bir benchmark’tır Modellerin çoğu, kendi yazdıkları kodu yeniden genişletmeleri gerektiğinde daha çok zorlanıyor Özellikler arasına test ve doğrulama adımları koymak, sallanan bir temel üzerine inşa etmeyi sürdürmeyi azaltabilir Telescope, üretim çalışma izlerini anlamsal olarak gruplayıp uzun kuyruklu hataları bulan, sorunları sınıflandıran, agent’ın PR oluşturmasını sağlayan ve bunu VibeBench veya A/B testleriyle doğrulayan dahili bir sistemdir Değerlendirme, son sürüm öncesi bir kontrol listesi değil, ajanı her gün iyileştiren bir motor haline geliyor Oturum 18 - The capability curve Claude Code kullanıcıları geçen yıla kıyasla daha büyük güvenle ve daha hızlı dağıtım yapıyor Sunum sırasındaki katılımcı anketinde birçok katılımcı, Claude ile 10 kat, 5 kat, 2 kat hız artışı hissettiklerini söyledi SWE-bench Verified üzerinde Sonnet 3.7 yaklaşık %62, Opus 4.7 ise %87 elde etti Opus 4.7, Sonnet 3.7’nin başarısız olduğu zor PR’ları başarıya ulaştırma olasılığında 3 kattan fazla artış sağladı Aynı prompt ile Claude.ai’yi yeniden üretmeye yönelik demoda, önceki model genel bir sohbet arayüzü ve hatalar üretirken, Opus 4.7 Claude renklerini, API yanıtlarını, sohbet geçmişini, satır içi grafikleri ve dark mode’u uyguladı İyileşen alanlar planlama, hata toparlama, uzun çalışmalarda dikkati koruma oldu Yeni model önce plan yapıyor, başarısız olursa geri dönüyor ve uzun bağlamlarda bile sistem prompt’unu ve hedefleri daha iyi koruyor Gerçek iyileşmeleri görmek için ürüne daha yakın dağılımda değerlendirmeler oluşturmak gerekiyor Model iyileştikçe mevcut değerlendirmeler kolayca doygunluğa ulaştığından, değerlendirmelerin de sürekli zorlaşması gerekiyor Yeni bir frontier model çıktığında, mevcut kalibrasyon süreçleriyle prompt’ları yeniden azaltmayı denemek gerekiyor Oturum 19 - Giving coding agents their own computers: How Cursor built cloud agents Cursor, darboğazın model zekasından çok insanların modele yeterli araç, bağlam ve büyük hedefler verememesinde olduğunu düşünüyor Nasıl insan geliştiriciler onboarding sürecinden geçiyorsa, agent’lara da bilgisayar, geliştirme ortamı ve dokümantasyon verilmesi gerekiyor Cursor’ın onboarding agent’ı depoyu tarıyor ve uygulamanın nasıl çalıştırılacağını, servisleri, ortam değişkenlerini ve izinleri belirliyor AnyDev CLI, agent’ların servisleri başlatmasına, hazır olma durumunu beklemesine, durumu kontrol etmesine ve hatta test hesabı oluşturma veya giriş yapma işlemlerini yürütmesine yardımcı olan bir araç Agent geliştirme ortamı iyileştikçe geliştiriciler daha fazla cloud agent çalıştırıyor ve daha büyük işleri onlara veriyor Otonominin temel ilkesi, agent’lara göz, araçlar ve iyi bağlam vermek Agent’lar da insanlar gibi uygulama durumunu, diğer agent konuşmalarını ve servis durumunu görebilmeli Cursor, computer use kavramını kodlamadan sonraki önemli bir temel yapı taşı olarak görüyor Claude 4.7, agent’ın bir özelliği doğrulamak için doğrudan uçtan uca demo kaydetmesine ve insanın kod incelemesinden önce sonucu hızlıca anlamasına yardımcı oluyor Cursor, agent experience kavramını ayrı bir tasarım hedefi olarak görüyor; agent can sıkıcı, bozuk ya da kafa karıştırıcı akışlarla karşılaştığında bunu work on the factory sorunu olarak kaydetmesini istiyor Nihai hedef, insanın süreci A’dan D’ye kadar elle yönlendirmesi değil, A’dan Z’ye kadar çözebilen bir sistem kurmak

(claude.com)

9 puan yazan xguru 4 시간 전 | Henüz yorum yok. | WhatsApp'ta paylaş

Anthropic’in geliştirici konferansı: Çevrimiçi ve fiziksel olarak düzenleniyor; fiziksel etkinlikler San Francisco 6/5, Londra 19/5, Tokyo 10/6 tarihlerinde yapılacak. San Francisco etkinliğinde 19 oturumun videosu yayımlandı
Claude, daha uzun görev yürütme, uzun süreli bellek, daha fazla araç kullanımı, daha iyi doğrulama yönünde gelişiyor
Temel değişim, geliştiricilerin doğrudan kendilerinin kurduğu tekrarlı çalıştırma, araç seçimi, doğrulama, bellek, bağlam yönetimi gibi işlevlerin Claude ürünleri ve platformunun içine taşınması
Ürün ve organizasyon düzeyindeki farklılaşma, modeli nasıl çağırdığınızdan çok, modele hangi araçları, verileri, yetkileri ve bağlamı açtığınıza kayıyor
Kod yazımının kendisinden çok doğrulama, güvenlik, yetki yönetimi, gözlemlenebilirlik, değerlendirme sistemi, organizasyonel işletim yeni darboğazlar haline geliyor
Bundan sonra önemli alanlar özelleştirilmiş araçlar, güvenilir bellek, değerlendirme, güvenlik sınırları, bağlam mühendisliği (context engineering), ajan çalışma deneyimi (agent experience) olacak

Oturum 1 - Açılış konuşması

Odak, Claude Code ve Claude Platform için geliştiricilere daha iyi çalışan ürün iyileştirmeleri üzerindeydi
Kullanıcıların çoğu Claude API’yi ya da terminali doğrudan kullanmak yerine, Claude’u geliştiricilerin yaptığı ürünlerin içinde kullanıyor
Claude Platform API kullanım hacmi, geçen yıla göre neredeyse 17 kat arttı
Claude Code’un ortalama geliştiricisi, haftada 20 saat Claude çalıştırıyor
Claude Code’un 5 saatlik kullanım limiti, Pro, Max, Team ve seat-based Enterprise plans için iki katına çıkarıldı
Claude Opus API limiti de büyük ölçüde artırıldı
Bireysel geliştiricilere ve küçük ekiplere daha fazla hesaplama kaynağı sunmak için SpaceX’in Colossus One veri merkezi kapasitesinden yararlanılmak isteniyor
Opus 4.7, Amp, Rakuten ve Intuit’te kodlama ajanı performansını, planlama kalitesini ve gerçek mühendislik görevlerini çözme oranını artırdı
Gelecekteki Claude, daha iyi muhakeme, daha büyük bağlam ve bellek, birden fazla ajanın işbirliği yönünde ilerliyor

Oturum 2 - Claude Code’da neler yeni

Claude Code’un yeni özellikleri iki eksende toplanıyor: geliştirici kullanılabilirliği ve özerkliğin güçlendirilmesi
Remote Control, terminalde başlatılan bir oturumun web veya mobilde devam ettirilmesini sağlıyor
Full screen terminal UI, sanal scrollback kullanarak titreşimsiz render ve tıklanabilir araç çağrısı ekranı sunuyor
Claude Code GUI, birden fazla oturumu sabitleme, filtreleme, gruplama ve bölünmüş ekranla yönetebilecek şekilde değiştirildi
plan view, diff view ve files view içinde satır bazlı yorum bırakılabiliyor ve Claude bunları daha sonra topluca işleyebiliyor
Auto Mode, bir araç çağrısının yıkıcı olup olmadığını ya da prompt injection gibi görünüp görünmediğini sınıflandırıyor, ardından güvenliyse yetki onayı olmadan çalıştırıyor
worktree, birden fazla Claude oturumunun kendi izole branch’leri ve dosya kopyaları içinde paralel çalışmasını sağlıyor
auto memory, Claude’un proje bazlı memory.md ve ilgili dosyaları yönetmesini, build komutlarını, debug ipuçlarını ve proje tercihlerini sonraki oturumlarda yeniden kullanmasını sağlıyor
Routines ve /loop, cron, GitHub webhook ve API tetikleyicileriyle Claude Code oturumlarının otomatik çalıştırılmasını mümkün kılıyor

Oturum 3 - Kendi kendine öğrenen ajanlar için bellek ve dreaming

Memory, MCP, Claude Code, Agent SDK ve Skills sonrasındaki bir sonraki temel yapı taşı olarak ele alınıyor
Claude Managed Agents belleği, dosya sistemi gibi yapılandırılıyor; Claude bunu Bash ve Grep ile doğrudan düzenleyip güncelliyor
Opus 4.7, neyin saklanacağına, dosyaların nasıl bölüneceğine ve bellek yapısının nasıl korunacağına daha iyi karar veriyor
Birden fazla ajanın aynı bellek deposuna okuyup yazabilmesi için salt okunur organizasyon belleği ile okuma-yazma görev belleği ayrılabiliyor
Yüzlerce ajanın aynı anda belleği değiştirse bile birbirinin üstüne yazmaması için içerik hash tabanlı iyimser eşzamanlılık kontrolü kullanılıyor
Değişiklik geçmişi, yazan taraf, oturum ve zaman noktası tutuluyor; böylece kurumsal ortamlarda denetlenebilir bellek yönetimi sağlanıyor
Dreaming, son ajan oturumlarını ve transcript’leri eşzamansız analiz ederek tekrar eden hataları, başarılı stratejileri, yinelenen belleği ve eski belleği bulup düzenliyor
Harvey, Dreaming’i hukuk benchmark’larına uygulayarak bir hukuk senaryosunda görev tamamlama oranını 6 kat artırdı
SRE demosunda, ayrı ayrı bakıldığında kaçırılan 60 saniyelik retry kalıbını Dreaming bulup belleğe yansıttı
Hedef, bugünün ajan çalışmalarının yarının ajanlarını otomatik olarak daha iyi hale getirdiği sürekli öğrenme yapısı

Oturum 4 - Caching, harnesses, and advisors: GitHub ölçeğinde Claude üzerine inşa etmek

GitHub Copilot ölçeğinde prompt caching, maliyet ve gecikmeyi azaltmanın temel araçlarından biri haline geliyor
Hedef cache hit rate %94-96; %70 seviyesi ise prompt derleme ya da caching tasarımında sorun olduğuna işaret sayılıyor
Sistem prompt’u ve araç listesinin baş kısmı mümkün olduğunca statik tutulmalı
UUID, zaman bilgisi ve dinamik araç yükleme baş kısma girerse cache kolayca bozuluyor
Birden fazla model arasında geçiş yapan harness içinde de Opus çağrılarının önceki cache’i yeniden kullanabilmesi için cache uyumluluğu korunmalı
GitHub, yeni modelleri çevrimdışı benchmark, iç kullanım, A/B testleri, çevrimiçi değerlendirme (eval), yayın sonrası optimizasyon sırasıyla devreye alıyor
Advisor stratejisi, ucuz bir yürütme modelinin işlerin çoğunu yapması, kritik karar gerektiğinde ise Opus’un danışman olarak çağrılması üzerine kurulu
Kaliteyi ve maliyeti belirleyen şey, modelin kendisinden çok prompt, araçlar, cache, model seçimi, değerlendirme, çevrimiçi geri bildirim katmanını birlikte işleten operasyon katmanı

Oturum 5 - Genişleyen araç seti

Geçen yıl doğrudan yazılan yardımcı kodlar, artık modelin ve API’nin içine dahil ediliyor
Araç kullanımında manuel router ya da retry decorator yaklaşımının değeri azalıyor
Claude, araçları doğrudan bulabiliyor, başarısız araç çağrılarını görüp toparlanabiliyor ve yeniden çağırabiliyor
Araç yönergelerinde yalnızca girdileri değil, çıktı şemasını da yazmak faydalı
Çıktı yapısı önceden bilindiğinde Claude, gereksiz gidip gelmeler olmadan sonucu daha iyi kullanabiliyor
Claude Code’daki pre/post tool hook’lar, belirli çağrıları engellemek ya da sonuçları otomatik olarak kaydedip analiz etmek için kullanılabiliyor
1 milyon token bağlam, sunucu tarafı sıkıştırma, bağlam düzenleme sayesinde uzun görevlerde bağlam yönetimi basitleşiyor
Eski ekran görüntüleri, arama sonuçları ve dosya okuma sonuçları periyodik olarak silinse bile, bunların oluşturduğu yargılar korunabiliyor
Opus 4.7, en fazla 1440p çözünürlüğe kadar özgün çözünürlüklü ekran görüntülerinden 1:1 piksel koordinatları döndürerek ekran otomasyonunda koordinat düzeltme yükünü azaltıyor
Model sınırlarını telafi eden kodun ömrü kısa; Claude’un göremediği araçlar, veriler, kimlik doğrulama ve alan bağlamını bağlayan kod ise daha uzun ömürlü kalıyor

Oturum 6 - Claude Managed Agents ile production’a daha hızlı nasıl geçilir

Claude Managed Agents, uzun süre çalışan operasyonel ajanlar için gerekli olan bağlam yönetimi, kimlik bilgisi yönetimi, güvenlik, erişim kontrolü, insan incelemesi ve gözlemlenebilirliği platformda bir araya getiriyor
Temel yapılandırma agent configuration, environment ve session’dan oluşuyor
session events ile kullanıcı etkinlikleri, ajan etkinlikleri, oturum etkinlikleri ve bölüm etkinlikleri görülebiliyor
Console; ayarlar, ortam, tam yürütme izi (trace), darboğazlar ve önerilen aksiyonları tek ekranda topluyor
outcomes, Claude’un önceden belirlenmiş bitiş kriterleri ve puanlama ölçütleri karşılanana kadar yineleme yapmasını sağlayan bir özellik
Birden fazla ajanın orkestrasyonu, bellek ve Dreaming de gelişmiş özellikler arasında ele alınıyor
Gösterge paneli demosunda agent; paralelleştirme, fast mode ve prompt optimizasyonunu bularak render süresini yaklaşık 37 saniyeden 10 saniyeye düşürüyor
Operasyonel ajanlar, yalnızca model çağrısı döngüsünden ibaret değil; izleme, darboğaz analizi, yetkilendirme ve doğrulamayı da birlikte sunmak zorunda

Oturum 7 - A conversation with Dario Amodei & Daniela Amodei

Anthropic, beklenenden hızlı kullanım ve gelir artışı nedeniyle işlem gücü sıkıntısı yaşamaya başladı
Ek işlem kapasitesi sağlayarak bunu geliştiricilere ve kullanıcılara daha fazla ulaştırmak istiyor
Geliştiriciler, Claude’un temel kullanıcıları ve yapay zekanın ekonominin geneline yayılışını ilk gösteren grup olarak görülüyor
Claude Code’daki bir sonraki değişim, bireysel üretkenlikten ekip ve organizasyon üretkenliğine geçiş olacak
Kod yazma hızı arttıkça güvenlik, doğrulama, güvenilirlik ve bakım yeni darboğazlar haline geliyor
Model yetenekleri hızla değiştiği için birkaç ay önce imkansız olan ürünler bir anda mümkün hale geliyor
API pazarı önemini korumaya devam edecek
Gelecekteki Claude, tek bir kişinin işine yardım etmenin ötesine geçerek organizasyon genelinde birden fazla insanın ve birden fazla ajanın yaptığı işleri büyütme yönünde ilerleyecek

Oturum 8 - Live coding session with Boris Cherny and Jarred Sumner

Bun’ın Robobun aracı, GitHub issue’larını otomatik olarak yeniden üretip testleri de içeren PR’lar oluşturuyor
Önceki sürümde başarısız olup düzeltme branch’inde geçen koşul, PR gönderimi için ölçüt olarak kullanılıyor
CLAUDE.md, build komutları, test komutları, test konumları, geçmiş başarısızlık kalıpları, klasör yapısı ve CI log’larının nasıl okunacağını içeren bir ajan operasyon dokümanı haline geliyor
CodeRabbit, Claude Code Review ve Robobun birlikte kullanılarak stil, CLAUDE.md uyumu ve diff dışındaki sınır koşullarının incelenmesi otomatikleştiriliyor
Claude Code ve Opus 4.7, hedef, ölçüm yöntemi ve doğrulama döngüsü net olduğunda performansı kademeli olarak yükselten işler için çok uygun
Darboğaz, kod yazımından planlama ve doğrulamaya kayıyor
Agent tarafından oluşturulan PR’lar, mutlaka birleştirilmesi gereken sonuçlar değil; incelenebilir öneriler olarak ele alınabiliyor
Agent PR’ları artsa bile insanların merge ölçütü düşmüyor, aksine yükselebiliyor

Oturum 9 - Building with Claude Managed Agents and Asana AI teammates

Asana’nın AI teammates yaklaşımı, şirket içinde gerçek iş arkadaşları gibi çalışan ajanları hedefliyor
Ajanlar birer actor haline gelerek onaylar, workflow’lar ve çok aşamalı işleri insanlarla birlikte yürütüyor
Birçok şirkette ajan kullanımı hâlâ bir kişinin sonucu alıp bir sonrakine devrettiği tek kullanıcılı akışta kalıyor
Asana ise birden fazla kişinin aynı ajanla etkileşime girdiği, bilginin ve belleğin biriktiği ortak çalışma akışlarını hedefliyor
Asana work graph, hedefler, portföyler, projeler, görevler, onaylar ve geçmiş kararları birbirine bağlayarak ajan bağlamı olarak kullanılıyor
AI teammate, paylaşılan ayarlar, role-based access control ve denetlenebilirlik ile insan iş arkadaşı gibi sistemlere dahil oluyor
Claude Managed Agents, kampanya planı yazımı ve HTML landing page mockup üretimi gibi çok aşamalı işleri yürütüyor
Asana; insan arayüzü, kurumsal bağlam, güvenlik ve denetlenebilirliğe odaklanırken Claude Managed Agents doğrulama döngüleri, grader’lar, outcomes ve çoklu ajan yürütmeyi üstleniyor
21’den fazla önceden oluşturulmuş AI teammates, PMO, pazarlama, IT, HR ve R&D işlerine uygun şekilde sunuluyor
Geri bildirimler ajan belleğinde kalıyor ve sonraki kullanıcının aynı hataları yeniden yaşamasını engelliyor

Oturum 10 - Running an AI-native engineering org

AI-native mühendislik organizasyonlarında kod üretim kapasitesi artık en pahalı darboğaz olmaktan çıkıyor
Doğrulama, inceleme, güvenlik, bakım ve disiplinler arası koordinasyon yeni büyük darboğazlar olarak öne çıkıyor
6 aylık roadmap’ler veya her iş için baştan hazırlanan tasarım belgeleri yerine, doğru anda plan yapıp hızla prototip üretmeye dayalı akış Claude Code ekibine daha uygun
Teknik tartışmalar, uzun whiteboard oturumları yerine birden fazla uygulama PR’ı üretip gerçek etkiyi ve API biçimini karşılaştırmaya kayıyor
Kod üretimi kolaylaştıkça test, otomasyon ve daha erken doğrulama daha da önemli hale geliyor
“Bu kodu kim yazdı?” sorusundan çok, regresyonun nedenini, uzman yanıtı gerekip gerekmediğini ve bağlam toplamanın amacını ayırt etmek önem kazanıyor
Claude Code ekibi; stil, lint, PR geri bildirimleri, bazı bug düzeltmeleri ve test eklemelerini Claude’a bırakıyor
Hukuki inceleme, güvenliğe duyarlı kodlar, güven sınırları ve ürün sezgisi ise insan uzmanlar tarafından incelenmeye devam ediyor
İşe alımlarda basit çıktı hacminden çok ürün sezgisine sahip yaratıcı geliştiriciler ile derin sistem uzmanlığı daha fazla önemseniyor
Başarı metrikleri olarak onboarding süresinin kısalması, PR döngüsünün hızlanması ve Claude yardımıyla yapılan commit’lerin artması izlenebilir

Oturum 11 - Building AI-native: Inside the stacks powering Cognition, Gamma, and Harvey

Gamma, tool calling ve ajan orkestrasyonundaki iyileştirmeleri ürüne hızla yansıtarak ajan tabanlı düzenleme akışını güçlendiriyor
Gamma, MCP connector’ları yalnızca entegrasyon özelliği olarak değil, müşteri edinimi ve iş akışı giriş noktası olarak da kullanıyor
Cognition, modelin kod düzenleme, dosya sistemi kullanımı ve uzun süreli planlamada daha başarılı hale gelmesiyle bazı dahili planlama ve bellek sistemlerini azaltıyor
Harvey, foundation model, reasoning model ve coding agent alanlarındaki her kırılma noktasında ürün mimarisini yeniden tasarlıyor
Harvey’in mevcut platform yeteneklerine, agent-native bir yapı olmadan ulaşmak zor olurdu
AI-native ürünler, mevcut mimarinin 6-12 ay içinde eskiyebileceği varsayımıyla tasarlanmalı
Kayıt, gözlemlenebilirlik, yeniden oynatma ve değerlendirme, hızlı mimari değişimlere yanıt verebilmek için zorunlu mekanizmalar haline geliyor
Hukuk gibi hassas alanlarda, açık veri, kapalı veri, bellek ve ajan akışları arasında güçlü veri sınırları gerekiyor
Belirli bir modelin sınırlarına göre optimize edilen mimarilerden çok, bir sonraki yetenek sıçramasını hızla soğurabilecek mimariler önem kazanıyor

Oturum 12 - Architecting for model step-changes: A fireside with Vercel's Guillermo Rauch

Vercel, ajan odaklı altyapıyı temel yönelim olarak görüyor
Bulut, kendi kendini onaran, optimize eden ve ayarlarını değiştiren bir altyapıya doğru genişleyebilir
AI Gateway, tokenlar için bir CDN gibi ele alınıyor
Birden çok sağlayıcıyı ve modeli yöneten, yönlendirme, arıza yönetimi ve maliyet kontrolünü üstlenen bir katman haline geliyor
Opus tokenları, kullanım payına kıyasla harcama payında çok daha büyük yer tuttuğu için, yüksek zekâlı modelleri ürüne eklerken maliyet yapısını net görmek gerekiyor
Opus 4.5 devreye alındıktan sonra V0, önceki modelleri telafi eden dil denetimi, otomatik düzeltme ve bazı işleme adımlarını sadeleştirebildi
Model yeteneklerindeki sıçrama, yalnızca yeni özellikler eklemekle kalmayıp mevcut telafi kodlarını kaldıran bir değişime de yol açıyor
V0 içinde Opus kullanımı genişledikten sonra ürün kredi harcaması 2 katına çıktı
Gelecekte yalnızca CLI ve UI tabanlı geliştirme değil, aynı zamanda asenkron ve insan gözetiminin daha az olduğu ajanlar da daha fazla büyüyebilir

Oturum 13 - The thinking lever

Test zamanı hesaplama (test-time compute), Claude’un akıl yürütme sırasında daha fazla token ve zaman kullanarak zor problemleri çözmesini sağlayan eksendir
Aynı Opus 4.7 bile low, high, max effort seviyelerine göre trafik simülasyonu kalitesinde büyük fark yaratıyor
Daha fazla zaman ve token kullanıldıkça grafikler, trafik akışı ve araç hareketleri daha gerçekçi hale geliyor
Claude’un kullandığı tokenlar düşünme tokenları, araç çağrısı tokenları ve metin tokenları olarak ayrılıyor
Düşünme tokenları iç akıl yürütme için, araç çağrısı tokenları dış dünyayla etkileşim için, metin tokenları ise kullanıcıyla iletişim için kullanılıyor
effort, zaman, maliyet ve kalite dengesi için bir ayar mekanizmasıdır
Task Budgets, Claude’un belirli bir görevde kullanabileceği token, zaman ve maliyet için üst sınır koymayı sağlar
Uyarlanabilir düşünme (adaptive thinking), Claude’un ihtiyaç duyduğu anda düşünme, araç kullanma ve kullanıcıya yanıt verme sırasını özgürce seçmesini sağlar
coding ve agentic use case’lerde extra high, iyi bir varsayılan olarak görülüyor
Basit büyük ölçekli sınıflandırma ya da çıkarım işlerinde küçük modeller avantajlıyken, zekâ gerektiren işleri hızlı bitirmek için büyük modellerin düşük effort seviyesi daha iyi olabilir

Oturum 14 - How Datadog built a universal machine tool for Claude Code

Datadog mühendislerinin yaklaşık %90’ı üretim kodunda yapay zeka kodlama araçları kullanıyor
Bunların en az 2/3’ü Claude Code kullanıyor
Yapay zeka kodlama araçlarının kullanım alanı, tekil fonksiyonlar, testler ve bağlantı kodlarından sistem düzeyindeki işlere doğru genişliyor
Darboğaz, kod yazımından geri bildirim döngülerine ve üretim doğrulamasına kayıyor
Helix deneyinde Claude Code, Kafka benzeri bir streaming servisini birkaç gün içinde oluşturabildi
Bunu üretim ortamına taşımak için shadowing, doğrulama basamakları ve sistem kilometresi gerekiyor
Tempor, ajanın doğaçlama araçlar üretmesi yerine önce durumları, geçişleri, etkileri ve değişmezleri içeren bir plan çıkarmasını sağlıyor
Geçiş tabloları, politika dokümanları, tipli etkiler, doğrulayıcılar ve özellik testleri, ajanın ürettiği yazılımı denetlenebilir kılıyor
Ajana özgürlük vermek için, üretim sisteminin değişmezlerini ve doğrulama süreçlerini makinenin okuyabileceği hale getirmek gerekiyor

Oturum 15 - Building with Claude on Google Cloud

Google Cloud üzerinde Claude Code kurmanın en kolay yolu olarak Application Default Credentials tabanlı kurulum sihirbazı kullanılıyor
Kurulum sihirbazı project, region ve kullanılabilir model’leri algılayıp sabitleyebiliyor
Google Cloud’da Claude model’lerini kullanınca token tabanlı ücretlendirme, provisioned throughput, API key değiştirme yükünün azalması, project politikalarının uygulanması, verinin project içinde kalması ve regional/global endpoint’ler kullanılabiliyor
Demoda PM, UI/UX designer, software engineer, security engineer ve data/growth marketer olmak üzere beş rolün tek bir geri bildirim uygulamasını uçtan uca oluşturduğu akış gösteriliyor
PM, elde çizilmiş bir wireframe’i Claude Code’a vererek hızlıca prototip oluşturuyor
UI/UX aşamasında plan mode kullanılarak Claude’un uygulamadan önce planı çıkarması sağlanıyor
Google Cloud developer knowledge API ve MCP server, en güncel dokümantasyonu ve mimari rehberliğini Claude Code’a bağlıyor
Google Cloud Skills, Cloud Run API dağıtımı ve Cloud Run ile Firestore bağlantısı gibi tekil blokların uygulanmasına yardımcı olmak için kullanılıyor
sub-agent kullanılarak API, toplama pipeline’ı ve dashboard uygulaması paralel yürütülüyor
security review prompt, OWASP sorunlarını veya service account izinlerini kontrol ediyor, bulunan sorunları düzelttikten sonra Cloud Run’a dağıtım yapıyor

Oturum 16 - Getting more out of the Claude Platform

Üretim amaçlı ajan optimizasyonunda öncelikler prompt caching, bağlam mühendisliği (context engineering) ve Advisor stratejisidir
Prompt caching, girdi token maliyetini düşürür, ilk tokene kadar geçen süreyi azaltır ve cache’lenmiş tokenların kullanım kotası yükünü hafifletir
Cache isabet oranında hedef %90’lar seviyesidir
Prompt’un ilk kısmındaki kararlılık, araç tanımlarının konumu ve dinamik değerlerin nereye eklendiği cache’i etkiler
Araç arama aracı (tool search tool), yalnızca gereken araç tanımlarını tam zamanında yükleyerek bağlamdan tasarruf sağlar
Tüm araçları baştan eklemek hem bağlam hem de cache üzerinde büyük yük oluşturur
Programatik araç çağrısı (programmatic tool calling), çok sayıdaki araç sonucunu olduğu gibi eklemek yerine yalnızca gerekli parçaları seçip bağlama koyar
Sıkıştırma (compaction), eski konuşmaları ve araç sonuçlarını azaltarak uzun görevlerin sürmesini sağlar
Advisor stratejisinde işlerin çoğunu Sonnet veya Haiku yapar, yalnızca kritik karar gerektiğinde Opus danışman olarak çağrılır
Asıl mesele modeli daha fazla çağırmak değil, modelin hangi bağlam, araç ve cache yapısı içinde çalışacağını tasarlamaktır

Oturum 17 - Evaluating and improving Replit Agent at scale

Replit Agent kullanıcıları, framework veya test belirtmeden yalnızca doğal dille çalışan bir uygulama bekliyor
Genel kodlama benchmark’larında olduğu gibi sadece yamanın testi geçip geçmediğine bakarak Replit Agent kalitesini ölçmek zor
Değerlendirmenin, uygulamanın kullanıcının istediği şekilde çalışıp çalışmadığına bakması gerekiyor
Replit, çevrimdışı değerlendirme ile çevrimiçi değerlendirmeyi birlikte kullanıyor
Çevrimdışı değerlendirme, yeni agent release öncesinde bir geçit görevi görüyor; çevrimiçi değerlendirme ise gerçek kullanım sonrasında hızlı yanıt vermek için kullanılıyor
VibeBench, girdi olarak 20 gerçek PRD alıp boş bir depodan uygulama oluşturan ve otomatik değerlendiricinin tarayıcıda uygulamayı test ettiği açık bir benchmark’tır
Modellerin çoğu, kendi yazdıkları kodu yeniden genişletmeleri gerektiğinde daha çok zorlanıyor
Özellikler arasına test ve doğrulama adımları koymak, sallanan bir temel üzerine inşa etmeyi sürdürmeyi azaltabilir
Telescope, üretim çalışma izlerini anlamsal olarak gruplayıp uzun kuyruklu hataları bulan, sorunları sınıflandıran, agent’ın PR oluşturmasını sağlayan ve bunu VibeBench veya A/B testleriyle doğrulayan dahili bir sistemdir
Değerlendirme, son sürüm öncesi bir kontrol listesi değil, ajanı her gün iyileştiren bir motor haline geliyor

Oturum 18 - The capability curve

Claude Code kullanıcıları geçen yıla kıyasla daha büyük güvenle ve daha hızlı dağıtım yapıyor
Sunum sırasındaki katılımcı anketinde birçok katılımcı, Claude ile 10 kat, 5 kat, 2 kat hız artışı hissettiklerini söyledi
SWE-bench Verified üzerinde Sonnet 3.7 yaklaşık %62, Opus 4.7 ise %87 elde etti
Opus 4.7, Sonnet 3.7’nin başarısız olduğu zor PR’ları başarıya ulaştırma olasılığında 3 kattan fazla artış sağladı
Aynı prompt ile Claude.ai’yi yeniden üretmeye yönelik demoda, önceki model genel bir sohbet arayüzü ve hatalar üretirken, Opus 4.7 Claude renklerini, API yanıtlarını, sohbet geçmişini, satır içi grafikleri ve dark mode’u uyguladı
İyileşen alanlar planlama, hata toparlama, uzun çalışmalarda dikkati koruma oldu
Yeni model önce plan yapıyor, başarısız olursa geri dönüyor ve uzun bağlamlarda bile sistem prompt’unu ve hedefleri daha iyi koruyor
Gerçek iyileşmeleri görmek için ürüne daha yakın dağılımda değerlendirmeler oluşturmak gerekiyor
Model iyileştikçe mevcut değerlendirmeler kolayca doygunluğa ulaştığından, değerlendirmelerin de sürekli zorlaşması gerekiyor
Yeni bir frontier model çıktığında, mevcut kalibrasyon süreçleriyle prompt’ları yeniden azaltmayı denemek gerekiyor

Oturum 19 - Giving coding agents their own computers: How Cursor built cloud agents

Cursor, darboğazın model zekasından çok insanların modele yeterli araç, bağlam ve büyük hedefler verememesinde olduğunu düşünüyor
Nasıl insan geliştiriciler onboarding sürecinden geçiyorsa, agent’lara da bilgisayar, geliştirme ortamı ve dokümantasyon verilmesi gerekiyor
Cursor’ın onboarding agent’ı depoyu tarıyor ve uygulamanın nasıl çalıştırılacağını, servisleri, ortam değişkenlerini ve izinleri belirliyor
AnyDev CLI, agent’ların servisleri başlatmasına, hazır olma durumunu beklemesine, durumu kontrol etmesine ve hatta test hesabı oluşturma veya giriş yapma işlemlerini yürütmesine yardımcı olan bir araç
Agent geliştirme ortamı iyileştikçe geliştiriciler daha fazla cloud agent çalıştırıyor ve daha büyük işleri onlara veriyor
Otonominin temel ilkesi, agent’lara göz, araçlar ve iyi bağlam vermek
Agent’lar da insanlar gibi uygulama durumunu, diğer agent konuşmalarını ve servis durumunu görebilmeli
Cursor, computer use kavramını kodlamadan sonraki önemli bir temel yapı taşı olarak görüyor
Claude 4.7, agent’ın bir özelliği doğrulamak için doğrudan uçtan uca demo kaydetmesine ve insanın kod incelemesinden önce sonucu hızlıca anlamasına yardımcı oluyor
Cursor, agent experience kavramını ayrı bir tasarım hedefi olarak görüyor; agent can sıkıcı, bozuk ya da kafa karıştırıcı akışlarla karşılaştığında bunu work on the factory sorunu olarak kaydetmesini istiyor
Nihai hedef, insanın süreci A’dan D’ye kadar elle yönlendirmesi değil, A’dan Z’ye kadar çözebilen bir sistem kurmak