1 puan yazan GN⁺ 1 시간 전 | Henüz yorum yok. | WhatsApp'ta paylaş
  • OpenAI ve Anthropic gibi büyük lab'lerin yapay zeka uygulama katmanını yutacağına dair kaygılar kurucular arasında yayılıyor; ancak uygulama katmanı tek bir fırsat değil, "Sarı Tuğlalı Yol (Yellow Brick Road)" ve "Oz'un Geri Kalanı (Rest of Oz)" olarak ayrılan bir yapı
  • Sarı Tuğlalı Yol, kod üretimi, yazı yazma, görsel üretimi gibi yalnızca model performansındaki iyileşmeyle kalitenin arttığı yatay alanları ifade ediyor; lab'lerin devasa kaynak yatırdığı rota da burası
  • Oz'un Geri Kalanı ise dikey, çok adımlı ve çok onaylı iş akışları gibi model üzerindeki scaffolding'in güvenilirlik ve uyumluluğu belirlediği alan; burada girişimlerin müşteriyi sahiplenme fırsatı var
  • OpenAI ve Anthropic'in kurumsal özelleştirme için büyük ölçekli forward-deployed ortak girişimler duyurmuş olması bile, genelleştirilmiş bir yapay zeka yardımcı çalışanının tek başına tüm problemleri çözemeyeceğine işaret ediyor
  • Yeni nesil kurumsal yazılım "yolun dışında (off the road)" inşa edilecek; modeller değiştirilebilir ama system of work değiştirilemez, asıl savunma hattı da bu

Temel soru ve varsayım

  • Kuruculardan ve potansiyel çalışanlardan tekrar tekrar gelen soru şu: "OpenAI ve Anthropic her şeyi öldürecek mi, yapay zeka uygulama katmanında hâlâ bir şey inşa edilecek alan var mı?"
  • Bazıları, kalıcı alt sınıfa düşmeden var olunabilecek yerin yalnızca büyük lab'lerin içi ya da robotik ve hard-tech gibi frontier alanları olduğu sonucuna varıyor
  • Yazar, bir yapay zeka maksimalisti olarak onların "yarı yarıya haklı" olduğunu düşünüyor; lab'lerin uygulama yüzeyinin önemli bir kısmını emeceği doğru
  • Ancak asıl nokta, uygulama katmanının tek bir fırsat olmaması — doğru çerçeve Sarı Tuğlalı Yol'un üstünde misiniz, yoksa Oz'un başka bir yerinde mi sorusu

The Yellow Brick Road — lab'lerin yürüdüğü yol

  • Güçlü bir modele G Drive, Slack, Salesforce, Notion ve GitHub gibi off-the-shelf connector'lar bağlayıp üstüne bir ajan orkestrasyon katmanı koyma deseni
  • Bu desenin riskli olmasının nedeni, lab'lerin Cowork ve Codex ile zaten aynı şeyi yapıyor olması
    • Modele sahip olmak → daha iyi marjlar, daha fazla kontrol ve aşağı akışta fiyatlandırma gücü
    • Ürünün iyi çalışmasını sağlayacak mimari seçimleri yapabilme yetkisi — bugüne kadar bilinçli olarak "model + tool calls" desenini seçtiler ve bu, yol üzerindeki yatay düşük seviyeli işler için tam uyumlu
  • Bir girişim Codex ya da Claude Code'u performans olarak geçse bile, lab'lerin devasa dağıtım ağı ve yapay zeka dünyasının en güçlü marka halesi var
  • Aynı connector kombinasyonuyla, alt ajanlar ve yapılandırma olmadan, dağıtım da olmadan bu oyun kitabını izleyen bir yapay zeka uygulama şirketi, "hiçbir yere gitmeyen bir yol"da ilerliyor demektir

The Rest of Oz — girişimlerin fırsatı

  • Modelin, araçlar, otomasyonlar ve entegrasyonlardan oluşan karmaşık bir ağ üzerinden bağlandığı ajan deneyimlerinin kurulduğu alan; bunun çoğu doğal olarak dikey hale gelir
  • Yatay platformların ulaşamadığı çok adımlı, çok paydaşlı işlere odaklanmak mümkün
    • Sistem genelinden bağlam toplandıktan sonra, adım adım onay gerektiren çok sayıda kişiye yönlendirme
    • Bir veya daha fazla legacy sistemle entegrasyon, deterministik sonuç ihtiyacı ve belirsizliğe tolerans olmaması
    • Çoğu durumda değerli iş sonuçlarıyla doğrudan bağlantı
  • Lab'ler de bu problemlerin değerinin farkında; bu yüzden doğrudan outsourced configuration shop'lar işletiyorlar ve güçlendirilmiş öğrenme işinin daha üst pazara hitap eden bir sınıfı bulunuyor

Oz'un geri kalanının büyücü tarafından yutulmamasının nedenleri

  • Data and learning flywheels (veri ve öğrenme flywheel'ları)

    • Eğitim setlerinde yer almayan örtük sektör normları, belgelendirilmemiş standartlar ve saha çalışanlarının kafasındaki tribal knowledge, açık web'de bulunmaz
    • Birbiri üstüne çalışan iki flywheel vardır
      • across-customer: aynı problemin varyasyonlarını birden çok müşteride görerek biriken kalıplar
      • within-customer: belirli bir kararın nedenleri, örtük istisnalar ve o şirkete özgü tecrübe kuralları
    • 100 hukuki redline, 1.000 sigorta underwriting işlemi, 10.000 SDR kampanyası yürütmüş bir şirket; yeni girenin yeni başlattığı ajanla kopyalayamayacağı bir problem şeklini içine işlemiş olur
    • Yatay ajanların aynı öğrenme altyapısını kuramamasının temel nedeni UX — iş akışı yüzeyini doğru biçimde tasarlayabilen yalnızca dikey oyunculardır
    • Eval setleri, etiketli çıktılar ve edge case sınıflandırma şemaları, dikeye özgü veri flywheel'ı olarak birikir ve fine-tuning için yakıt olur
  • Managing model variability and complexity (model çeşitliliği ve karmaşıklığını yönetmek)

    • Lab'ler dahili olarak istek bazlı model routing ve ensemble zaten yapıyor; ancak vendor'lar arası routing, rakip model değerlendirmesi ve open-source fine-tuned modelleri dar alanlarda kullanmak onlar için mümkün değil
    • Rest of Oz şirketleri, ana lab'in çıkardıklarıyla sınırlı kalmadan tüm model pazarı içinden her alt görev için en iyi modeli seçebilir
    • Her yükseltmede eval'leri yeniden çalıştırma, müşteri edge case'lerine göre prompt'ları yeniden kalibre etme ve üretimi bozmayan rollout'lar gibi "kimsenin yapmak istemediği işleri" üstlenirler
    • Lab bir sonraki modeli satıp "geçiş yapın" der; Rest of Oz şirketi ise geçişin yükünü üstlenerek müşteriye tüm pazardaki en iyi zekayı ve sürüm yükseltmelerinde sürekliliği sunar
  • Cost optimization (maliyet optimizasyonu)

    • Her sorguyu Opus 4.7 ile çalıştırmak, negatif brüt kâra giden en kısa yoldur
    • En iyi Rest of Oz şirketleri modelleri katmanlı routing ile kullanır
      • En zor işler için frontier modeller
      • Çoğu iş için mid-tier modeller
      • Uygun parçalarda küçük özel, fine-tuned modeller
    • Bazı şirketler bunun üstüne kendi post-training süreçlerini de uygular; müşterinin önemsediği dar dilime optimize ederek frontier API'lere göre maliyetin bir kısmıyla hizmet verir
    • Lab'ler "X dolar karşılığında minimum zeka" diye bir taban fiyat belirliyorsa, Rest of Oz şirketleri bunun tersini satar: iş akışının gerçekten gerektirdiği zeka seviyesi için en düşük dolar maliyeti
  • Governance (yönetişim)

    • Müşterinin o dikey alanda yapay zekayı nasıl çalıştırdığının control plane'i olmak ciddi değer taşır — yetkiler, denetim, ajanların ne yapabildiği ve gerçekte ne yaptığı burada birleşir
    • Bu control plane, sektör ve işleve göre tamamen değişen use case'e özgü guardrail'lerden oluşur
    • Araçları, iş akışlarını ve veriyi uçtan uca sahiplendiği için yatay araçların zorlandığı deterministik sonuçları sunabilir
    • Son alıcı yerine düzenleyici karmaşıklığı üstlenen taraf olur
      • Hukuk: FRCP ve avukat etik kuralları
      • Sağlık: HIPAA
      • Finans: SEC ve FINRA
      • Sigorta: eyalet bazlı sigorta düzenlemeleri vb.
    • CIO, sunduğu ajanların uyumluluğu konusunda sözleşmesel sorumluluk alan bir partner ister
  • Ortak sonuç: odak

    • İster sigorta, hukuk, muhasebe gibi dikeylerde; ister satış, müşteri desteği, finans gibi derin icra edilen fonksiyonlarda olsun, tek bir müşteri kümesinin iş akışlarına, edge case'lerine ve regülasyonlarına adanmış ekipler gerekir
    • Lab'ler herkes için her yerde olmak zorunda oldukları için bunu yapamaz — ya "her yerde olursunuz" ya da "tek bir şeyi çok iyi yaparsınız"

Sales örneği — 11x CEO'su Prabhav Jain'den pratik tavsiyeler

  • Focus on outcomes (sonuçlara odaklanın)

    • Lab'lere dayanıklı şirket kurmanın taktik yolu, müşterinin gerçekten önemsediği belirli bir sonuçtan başlamak — 11x için bu pipeline üretimi
    • Her faaliyeti görevlere ayırmak → hangisinin ajanlık gerektirdiğini, hangisinin gerektirmediğini; hangisinin derin alan içgörüsü istediğini, hangisinin istemediğini ayırmak
    • Çok adımlı, dağınık girdili, yorumlanması zor durumlara ve gerçek dünya kısıtlarına sahip iş akışlarında daha iyi model tek başına yetmez; geleneksel yazılım mühendisliği gerekir ve bu yüzeyde lab'lerin üstünlüğü yoktur
    • 11x'in ele aldığı görevlere örnekler
      • Özel sinyal tabanlı lead prospecting, lead enrichment, derin hesap araştırması
      • CRM context fetcher, kanala özel mesaj yazıcı, lead qualification agent, e-posta teslim edilebilirlik sistemi
    • Genel eğitim verisinde bulunmayan alan bilgisini iş akışının doğru anında modele enjekte etmek uygulama şirketinin işidir ve bu birikerek büyür
    • Beceriler iş dünyasının evrimiyle sürekli eskir; bu nedenle iş akışını ve bağlamı evrimleştirebilme yeteneği başlı başına rekabet avantajıdır
      • Örnek: yapay zeka yazımı e-postalar ortaya çıktığından beri kullanıcı sezgisi birkaç ayda bir değişiyor; ajan da piyasa dinamiklerine göre sürekli uyum sağlamak zorunda
      • Son birkaç ayda positive reply rate 4 kat arttı ve müşteriler için yüz milyonlarca dolarlık pipeline üretildi
  • Work on problems where complexity is high (karmaşıklığın yüksek olduğu problemlerde çalışın)

    • Gerçek iş değeri karmaşık problemlerde açığa çıkar; aksi halde ortaya sadece ince bir wrapper çıkar
    • GTM örneği: "Zaten müşteri olan bir şirketin kontağına ulaşma" gibi basit görünen kural bile pratikte çok karmaşıktır
      • CRM'de domain eşlemesi olabilir, onlarca iştiraki olan şirketler bulunabilir, sadece ana şirket domain'i kayıtlı olabilir ve Salesforce'taki stale matching alanları nedeniyle mevcut müşteri CRO'suna cold pitch gidebilir
    • Gerçek dünya verisi dağınıktır; ne insan ne de model bunu sihirli biçimde çözebilir — problemin somut şekline göre mühendisliği yapılmış amaç odaklı ajanlar gerekir
    • 11x verilerine göre kendi verilerinin kalitesi ve güncelliği müşteri tarafındakinden daha yüksek; bu yüzden varsayılan yaklaşım kendi verilerine anchor olmak
  • Guardrails — kötü şeyleri önlemek değil, müşterinin para ödediği öz

    • Guardrail'ler ciddi biçimde küçümseniyor; aynı ürün içinde bile her use case için ayrı tasarım gerekiyor
    • Regüle finansal hizmetler müşterisi ile mid-market SaaS müşterisinin talep ettiği güvence farklıdır; bu da ajanın nasıl yazdığına, kime ulaştığına, hangi verilere eriştiğine, çağrıda ne söylediğine ve kararların nasıl loglandığına kadar yansır
    • Tek tip bir sistem çöker; use case bazlı tasarım, müşteri bazlı yapılandırma ve sürekli denetim gerekir
    • Bunun için müşteri ihtiyaçlarına göre ayar yapan FDE (Forward Deployed Engineer) ve teknik dağıtım stratejistleri kullanılır
    • F1000 kurumu örneği
      • Büyük ölçekli SMB müşterilerine yönelik izin temelli outbound sesli arama yapıldı
      • İlk denemelerde düşük cevap oranı görüldü → aramanın ilk 10 saniyesinde SMB işletme sahibini nasıl sohbete dahil edeceği hızla öğrenildi
      • SMB işletme sahipleri büyük B2B alıcılarından ya da tüketicilerden farklı davranıyor; şu anda bu segmentte müşterinin satış ekibinin bir ayda ürettiğinden bir günde daha fazla satış fırsatı oluşturuluyor

Insurance örneği — FurtherAI CEO'su Aman Gour

  • Gerçek sigorta operasyonlarına yapay zeka dağıtırken tekrar tekrar karşılaştığı varsayım — "zeka modeldedir ve iş akışı sadece scaffolding'dir" — taşıyıcılarla çalıştıkça aslında tersinin doğru olduğuna daha çok ikna oldu
  • Sigortada zekanın önemli bir kısmı iş akışının kendisinde bulunur
    • İki taşıyıcı aynı akışı izlese bile (submission → review → quote → bind), fark ayrıntıların tamamındadır
      • Hangi risk escalation alır
      • Hangi zarar sinyalleri önemlidir
      • appetite kuralları çakıştığında hangisi baskın gelir
      • İnsan onayının ne zaman gerektiği, dış veri çağrılarının ne zaman yapıldığı ve nihai kararın nasıl belgelendiği
    • Bu mantık tek bir temiz rule engine içinde değil; SOP'lere, yönetici incelemelerine, underwriting felsefesine, taşıyıcıya özgü appetite'a ve yılların operasyonel deneyimine dağılmıştır; bunların çoğu modelin okuyabileceği biçimde belgelenmiş bile değildir
  • Sonuç her seferinde sıfırdan akıl yürüten saf ajanlar da değil, gerçek dünya kirlenince kırılan katı iş akışları da değil; çözüm agentic workflows
    • İş akışı → tekrarlanabilirlik, denetlenebilirlik, maliyet kontrolü
    • Ajanlar → değişkenliği yönetme, happy path bozulduğunda toparlanma
    • human-in-the-loop → sorumluluğun kritik olduğu karar anları
  • İlk gün hedef manuel işleri otomatikleştirmektir; zamanla her escalation bir sinyal, her istisna bir geri bildirim, her insan düzeltmesi ise runbook'taki bir boşluğun işareti haline gelir ve iş akışı taşıyıcının operating memory'sine dönüşür
  • Lab'ler daha iyi modeller ve daha iyi genel amaçlı ajanlar çıkarmaya devam edecek; ancak hangi hesabın escalation aldığı, hangi riskin reddedildiği ve bir underwriter'ın appetite kılavuzunu neden tersine çevirip yine de haklı çıktığı, bir taşıyıcının üretim ortamında yeterince uzun kalmadan öğrenilemez
  • "İlk gün yayımlanan iş akışı hendek değildir; zaman içinde üretim kullanımının oluşturduğu loop hendektir"

Oz'un geri kalanına ait olup olmadığını anlamak için 3 test

  • The tools-and-steps test (araç ve adım testi)

    • İş kaç adımdan geçiyor ve destekleyici araçlar ne kadar karmaşık
    • Karşılaştırma
      • Yatay AI arama (Google Drive içinde arama): 1 adım, 1 araç, esnek sonuç — yanlışsa tekrar sorarsınız
      • Hukuki redline (3 yıllık firma emsalleriyle karşılaştırma): onlarca adım, çok sayıda araç, partner incelemesini geçmesi ve hatta mahkemede tartışılabilir bir çıktı
    • İkisi de "ajanın çalıştığı" görüntüsünü verir ama yalnızca biri, odaklı bir ekibin yıllarca geliştirdiği derin yazılımı gerektirir
  • The system test (sistem testi)

    • Müşterinin işini içinden geçirdiği bir sistem mi inşa ediyorsunuz, yoksa mevcut sistemlerin üstüne konan bir araç mı?
    • Sistem; veri yakalamayı, yönetişimi ve uygulama kayıtlarını uçtan uca sahiplenir, müşterinin "asıl işin gerçekleştiği yer" diye işaret ettiği katmandır
    • Araç ise müşterinin zaten kullandığı iş akışına sadece zeka ekler; gelir üretir ama lab'lerin alıp götürebileceği alandır
    • Yüksek ACV çoğu zaman sistem olduğunun işaretidir ama garanti değildir — lab doğrudan rakip ürün çıkarsa müşterinin hâlâ sizin aracınıza ihtiyaç duyup duymayacağı asıl ölçüttür
  • The hedge fund / P&L test (hedge fund / P&L testi)

    • Lab performansı benchmark'larla, Rest of Oz performansı ise müşterinin P&L'iyle ölçülür
    • Müşteri SWE-Bench ya da MMLU puanlarıyla ilgilenmez — ajanın anlaşma kapatıp kapatmadığına, sözleşmeyi doğru redline edip etmediğine, doğru poliçeyi bind edip etmediğine bakar
    • İş akışına özgü sonuçlara takıntılı müşteri → Rest of Oz; genel yetenek için para ödeyen müşteri → Claude ya da Codex koltuğu yeterlidir
    • En iyi ajan işlerinin, hedge fund'lar gibi müşterinin P&L'iyle ölçülen alfa üzerinden rekabet etmesi gerekir

İki taraf da kazanabilir

  • Sarı Tuğlalı Yol üstünde de devasa kazananlar çıkacak — lab'ler modeli de kendi tasarladıkları yatay araçların dağıtımını da sahipleniyor
  • Rest of Oz tarafında kazanmanın koşulu system of work'ü sahiplenmek — şirket işlerinin gerçekten yürütüldüğü ve verinin yakalandığı yüzey
    • Veri yakalamayı, iş akışının eylem sistemini ve yönetişimi sahiplenmek
    • Dikeydeki karmaşık iş akışları olgunlaştıkça, müşterinin bağımlı olduğu tek bir çekirdek deneyime yoğunlaşmak
    • Yeni ve eski model nesilleri çıktığında, bunları entegre edip sunan katman haline gelmek
    • Modeller altta fungible olabilir, ama system of work öyle değildir
  • Yeni nesil kurumsal yazılım "yolun dışında" inşa edilecek

Henüz yorum yok.

Henüz yorum yok.