18 puan yazan GN⁺ 2026-02-23 | Henüz yorum yok. | WhatsApp'ta paylaş
  • Yazılım mühendisliği, tüm AI ajan aracı çağrılarının yaklaşık %50’sini oluştururken; sağlık, hukuk, finans gibi 16 dikeyin her biri %5’in altında kalıyor
  • AI modellerinin gerçek kapasitesi, bir insanın 5 saatte yapacağı işleri yerine getirebilecek düzeyde; ancak gerçek kullanımda %99,9’luk dilimdeki oturumlar yaklaşık 42 dakika ile sınırlı kalıyor ve kapasite ile güven arasında büyük bir fark bulunuyor
  • Kullanıcı deneyimi arttıkça otomatik onay oranı %20’den %40’ın üzerine çıkıyor; aynı anda deneyimli kullanıcılar da ön onay yerine etkin izleme temelli bir gözetim stratejisine geçiyor
  • Dikey AI’ın özü; özel/veriye özgü entegrasyon, alana özel bağlam mühendisliği ve müşteri değişim yönetimi olup, basit wrapper’larla savunulabilir şirketleri ayıran ölçüt de bu
  • SaaS son birkaç on yılda 170’ten fazla unicorn çıkardıysa, her SaaS unicorn’una karşılık gelen bir dikey AI unicorn’u da ortaya çıkabilir; AI versiyonu yalnızca yazılımı değil, operatörleri de ikame edebilir

Yazılım mühendisliği, AI ajan etkinliğinin yarısını kaplıyor

  • Anthropic’in yayımladığı AI ajanlarının gerçek kullanımına dair araştırmaya göre, yazılım mühendisliği tüm ajanik araç çağrılarının %49,7’sini oluşturuyor
  • Sağlık yalnızca %1, hukuk %0,9, eğitim ise %1,8 seviyesinde; 16 dikey arasında %9’u aşan hiçbir alan yok
  • Bu, pazarın doygunlaştığını değil, henüz oluşmamış durumda olduğunu gösteriyor
  • Han Wang bunu, “girişimcilerin çoğunun gözden kaçırdığı bir greenfield fırsatı” olarak tanımlıyor
  • Bu yazının yazarı Garry Tan ise “bugün şirket kuruyor olsam, bu grafikteki kırmızı alana odaklanırdım” diyor

Dağıtım açığı (Deployment Overhang)

  • METR değerlendirmesine göre Claude modelleri, bir insanın 5 saatte yapacağı işleri gerçekleştirebiliyor; ancak gerçek oturumlar ortalama yalnızca 42 dakika sürüyor
  • AI’ın yapabildikleri ile kullanıcıların izin verdikleri arasındaki fark, büyük ölçekli bir fırsat oluşturuyor
  • Ekim 2025 ile Ocak 2026 arasında %99,9’luk dilimde tur süresi 25 dakikanın altından 45 dakikanın üzerine çıkarak neredeyse iki katına yükseldi
    • Bu, yalnızca model performansındaki iyileşmeyi değil, kullanıcıların her oturumda güven biriktirmesini de yansıtıyor
  • İç verilerde Claude Code’un başarı oranı iki katına çıkarken, oturum başına insan müdahalesi 5,4’ten 3,3’e düştü
  • Modelin yeteneği yeterli ama dağıtım bunun gerisinde kalıyor; bu da yeni bir ürün fırsatı anlamına geliyor

Güven nasıl evriliyor

  • Yeni kullanıcılar Claude Code oturumlarının yalnızca %20’sini otomatik onaylıyor; ancak 750 oturumluk deneyimden sonra %40’tan fazlası tam otomatik onaya geçiyor
  • Sezgilere aykırı biçimde, deneyimli kullanıcılar daha az değil daha fazla müdahale ediyor — yeni kullanıcıların müdahale oranı %5, deneyimlilerinki %9
    • Bu bir çelişki değil, gözetim stratejisindeki değişim: yeni başlayanlar her adımı önceden onaylıyor; deneyimliler ise yetki verip sorun çıkarsa müdahale ediyor (ön onay → etkin izleme)
  • Güvenlikle ilgili bulgu: karmaşık görevlerde Claude Code, insanların müdahale sıklığından iki kattan fazla daha sık doğrulama soruları soruyor
    • Ajanın körlemesine ilerlemek yerine, belirsizlik anında kendi kendine durduğu bir davranış örüntüsü söz konusu
  • Anthropic’in temel dersi: ajanların pratikte kullandığı özerklik, model, kullanıcı ve ürünün birlikte inşa ettiği bir şey

Aaron Levie’nin dikey AI oyun kitabı

  • Aaron Levie’nin ortaya koyduğu dikey AI kurma formülü:
    • Her sektörün kendine özgü veri, iş akışı ve regülasyon bariyerlerini anlamak, savunulabilir şirketlerin temelini oluşturur
    • Basit bir wrapper değil, özgün veri entegrasyonu, iş akışı otomasyonu ve değişim yönetimi yeteneği gerekir
    • Özel/veriye özgü veriye bağlanan ajanik yazılımlar inşa etmek
    • Yazılımın gerçek insanlara ve gerçek problemlere uygun çalışacak şekilde tasarlanması
    • Alana özel bağlam mühendisliği ile çıktı zekâsını en üst düzeye çıkarmak
    • Girişimcilerin çoğunun kaçırdığı nokta: müşteri tarafında değişim yönetimini (change management) yürütmek
  • Dikey AI’ın savunulabilir olmasının nedeni şu: herkes wrapper yapabilir, ancak sağlıkta faturalama, hukukta discovery ya da inşaatta ruhsatlandırma gibi somut iş akışları, regülasyon kısıtları ve kurumsal sürtünmeleri çözebilen çok az kişi var
  • SaaS, onlarca yıl boyunca her on yılda 10 kat büyüdü; son 20 yılda VC yatırımlarının %40’ından fazlası SaaS’e aktı ve 170’ten fazla SaaS unicorn’u çıktı
  • Temel tez şu: her SaaS unicorn’una karşılık gelen bir dikey AI unicorn’u vardır ve AI versiyonu yalnızca yazılımı değil, operatörleri de ikame ettiği için 10 kat daha büyük olabilir

Birlikte inşa (Co-Construction) içgörüsü ve politika çıkarımları

  • Anthropic’in temel bulguları:
    • Özerklik, modelin doğasında bulunan sabit bir özellik değil; model, kullanıcı ve ürün tarafından birlikte inşa edilen bir şeydir
    • Bunu dağıtım öncesi değerlendirmeler tek başına yakalayamaz; bu nedenle gerçek ortamda ölçüm zorunludur
  • Güvenlik metrikleri: araç çağrılarının %73’üne insan müdahale ediyor, yalnızca %0,8’i geri döndürülemez eylem olarak sınıflandırılıyor
    • En riskli dağıtımların çoğu (API anahtarlarının sızması, otonom kripto para alım satımı vb.) gerçek üretim değil, güvenlik değerlendirmeleri kapsamında
  • “Her eylemi onaylayın” politikası, güvenliği artırmadan yalnızca verimliliği düşürüyor;
    insanların izleyebilmesini ve gerektiğinde müdahale edebilmesini sağlamak daha iyi bir politika hedefi

Unicorn’ların saklandığı yer

  • Yazılım mühendisliği zaten kapılmış durumda; sağlık, hukuk, finans, eğitim, müşteri hizmetleri, lojistik gibi
    tek haneli pazar payına sahip 16 dikey, alana özgü uzmanlığı ajanlara yerleştirecek birilerini bekliyor
  • Daha önce 300 SaaS unicorn’u doğdu; sırada 300 dikey AI unicorn’u var
  • Dikeyini seçen, alan uzmanlığını ajanlara gömen ve değişim yönetimini çözen girişimciler, önümüzdeki 10 yılın kurumsal yazılımına sahip olacak
  • Modeller zaten 5 saat boyunca çalışabiliyor, ama kullanıcılar yalnızca 42 dakika izin veriyor
    • Bu, AI kullanımının çok erken bir aşamada olduğunu gösteriyor
    • Ve henüz tek bir dakikalık zekânın bile uygulanmadığı çok sayıda alan bulunduğuna işaret ediyor

Henüz yorum yok.

Henüz yorum yok.