- AI girişimlerinde ürün-pazar uyumundan (PMF) önce, mevcut modelin yeteneklerinin pazarın taleplerini gerçekten çözüp çözemediğini ifade eden model-pazar uyumunun (MMF) doğrulanması şarttır
- GPT-4’ün çıkışından sonra hukuk AI pazarı patlayıcı biçimde büyüdü; Claude 3.5 Sonnet’in ardından kodlama asistanlarının gerçek bir iş akışına yerleşmesi MMF’ye ulaşılmasının tipik örnekleridir
- Matematiksel ispat, yüksek riskli finansal analiz ve otonom ilaç keşfi gibi alanlarda pazar talebi vardır, ancak model yetenekleri kritik eşiği aşamadığı için MMF yoktur
- Human-in-the-loop yardımcı bir araç değil de, insanın tamamlayıcı değil çekirdek işi bizzat üstlenmesi gerekiyorsa, bu durum MMF’nin olmadığını gösterebilir
- AI stratejisinin özü, MMF → PMF → başarı sırasını kavramakta ve neyi ne zaman inşa edeceğine soğukkanlı biçimde karar vermektedir
Marc Andreessen’in çerçevesi ve yeni değişken
- 2007’de Marc Andreessen, girişimlerin üç unsuru (ekip, ürün, pazar) arasında pazarın en önemli unsur olduğunu savunan bir makale yayımladı
- Buna göre iyi bir pazar, ürünü girişimin dışına doğru çeker; ürünün kusursuz olması gerekmez, temel olarak çalışması yeterlidir
- Aradan 19 yıl geçtikten sonra, pazarın gerçekten bir şeyi çekip çekemeyeceğini belirleyen yeni değişken olarak model ortaya çıktı
- AI girişimlerinde ürün-pazar uyumundan önce, mevcut model yeteneklerinin pazarın istediği işi yapıp yapamayacağı şeklinde bir ön koşul vardır
- MMF varsa Andreessen’in çerçevesi işler ve pazar ürünü çeker; yoksa UX, GTM stratejisi ve mühendislik ne kadar iyi olursa olsun müşteri benimsenmesi sağlanamaz
MMF kilidi açıldığında pazarın patlaması
-
Hukuk AI: GPT-4 (Mart 2023)
- GPT-4 öncesinde hukuk teknolojisi AI girişimleri ölçeklenmeyi başaramadı; belge inceleme araçları, sağladıkları tasarruftan daha fazla insan denetimi gerektiriyordu
- BERT gibi önceki transformer modelleri belge sınıflandırma veya sözleşme türü tespiti gibi sınıflandırma görevlerinde güçlüydü, ancak hukuk işinin merkezindeki üretim ve akıl yürütmeyi yerine getiremiyordu
- Bir sözleşmeyi “istihdam” ya da “NDA” diye sınıflandırabiliyorlardı, ama Kaliforniya hukukuna göre rekabet yasağı maddesinin neden uygulanamaz olduğunu açıklayan tutarlı bir hukuki değerlendirme yazamıyorlardı
- GPT-4’ün çıkışını izleyen 18 ayda Silikon Vadisi girişimleri yüz milyonlarca dolar topladı; Thomson Reuters, Casetext’i 650 milyon dolara satın aldı ve onlarca yeni hukuk AI girişimi ortaya çıktı
- Hukuk AI pazarı, önceki 10 yılın tamamından yalnızca 12 ay içinde daha fazla unicorn çıkardı
- Pazar talebi aynı kaldı; değişen tek şey model yeteneğinin kritik eşiği aşmış olmasıydı
-
Kodlama: Claude 3.5 Sonnet (Haziran 2024)
- GitHub Copilot gibi kodlama asistanları daha önce de vardı, ancak zaman zaman faydalı olan otomatik tamamlama ile kod tabanını gerçekten anlayan AI arasında açık bir fark vardı
- Claude 3.5 Sonnet’ten önce Cursor kullanımı ilginç bir demo düzeyinde kalıyor, günlük iş akışının parçası hâline gelemiyordu
- Sonnet’in çıkışından sonra ise yalnızca bir hafta içinde Cursor olmadan çalışmak imkânsız hâle geldi; deneyim, tüm kod tabanını anlayan biriyle pair programming yapmaya dönüştü
- Cursor’un büyümesinin dikey sıçrama yapmasının sebebi özellik yeniliği değil, temel modelin gerçek kullanım eşiğini aşmasıydı
-
Desen analizi
- Asıl mesele MMF’nin var olup olmamasıdır; kazanan girişimler her zaman ilk çıkanlar değil, model yeteneğinin eşiği aşacağı ana hazırlanmış ekiplerdir
- Hem kodlama hem hukuk alanında kazanan yerleşik oyuncular olmadı; pazarı her zaman yeni oyuncular ele geçirdi
- Bugünün önde gelen hukuk AI girişimleri, avukatların gerçek iş akışlarını, gereken çıktı biçimlerini, regülasyon gerekliliklerini ve yardımcı avukatların araştırma yöntemlerini önceden aylar boyunca biriktirmişti
- Yarışı ilk başlayan değil, MMF oluştuktan sonra PMF’ye ilk ulaşan taraf kazanır
MMF olmadığında ortaya çıkan sorunlar
-
Matematiksel ispat
- Matematikçiler yeni teoremleri ispatlayabilen bir AI istiyor; araştırma kurumları, savunma yüklenicileri ve teknoloji şirketleri gerçek matematiksel akıl yürütme için milyonlarca dolar ödemeye hazır
- Ancak en gelişmiş modeller bile bunu istikrarlı biçimde yapamıyor; bilinen ispatların doğrulanması, mekanik adımlara destek ya da sınırlı problemlerde içgörü sunmakla yetiniyor
- Açık problemlere yeni ispat üretmek henüz mümkün değil; GPT-5, o1, o3 gibi nesiller boyunca kademeli ilerleme olsa da açık varsayımlar için titiz ispat bekleme aşamasında değiliz
-
Yüksek riskli finans
- Yatırım bankaları ve hedge fonlar, kapsamlı finansal analiz yapabilen AI’ı büyük bir istekle bekliyor; tek bir başarılı işlem veya M&A anlaşması bile yüz milyonlarca dolarlık ücret yaratabilir
- Buna rağmen AI, çekirdek görevlerde hâlâ şaşırtıcı derecede düşük performans gösteriyor
- Karmaşık finansal modellerle uğraşırken Excel çıktısına bile güvenmek zor
- 200 sayfalık belgeleri okuyup nicel analizle nitel içgörüyü birleştirmek, AI için en büyük zorluklardan biri
- İnsan analistler earnings call’ları, regülasyon bildirimlerini ve sektör raporlarını okuyup bunları spreadsheet modelleriyle birleştirerek yatırım kararı verir; AI ise bu iş akışının yalnızca bir bölümünü yapabiliyor
- İnsanın döngü içinde kalmasının nedeni sadece denetim değil, hâlâ çekirdek karar verici rolünün gerekli olmasıdır
-
Benchmark farkı
- Vals.ai benchmark karşılaştırmaları, MMF’nin bulunduğu dikeylerle bulunmadığı dikeyler arasındaki performans farkını çarpıcı biçimde gösteriyor
- LegalBench (hukuki akıl yürütme görevleri): en iyi model %87 doğruluk, Gemini 3 Pro %87,04 ile önde ve birçok model %85’in üzerinde
- Hafif bir gözden geçirmeyle avukatların çıktıya güvenebileceği prodüksiyon seviyesi performans
- Finance Agent (çekirdek finans analisti görevleri): en iyi model %56,55 doğruluk; GPT-5.1 güçlükle yarıyı aştı, Claude Sonnet 4.5 extended thinking ise %55,32’de kaldı
- Yaklaşık 30 puanlık fark, hukukta MMF olduğunu ama finans tarafında olmadığını gösteriyor
- Bugün hukuk AI ürünleri piyasaya sürülebilir; ancak analistin gerçek işini yapan finans AI ürünü yakın gelecekte mümkün olsa da şu anda mümkün değil
-
Otonom ilaç keşfi
- İlaç sektörü, AI tabanlı ilaç keşfine milyarlarca dolar yatırım yapıyor; tek bir başarılı ilaç onlarca milyar dolarlık değer yaratabilir
- AI, aday molekül tespiti, protein yapısı tahmini (AlphaFold’un devrimi) ve klinik deney tasarımının optimizasyonu gibi tekil aşamaları hızlandırmada katkı sağlıyor
- Ancak bugünkü değerlemeleri haklı çıkaracak ölçüde uçtan uca otonom ilaç keşfi henüz yok
- İnsanın döngü içinde kalmasının nedeni iş akışı tasarımı tercihi değil, AI’ın henüz gerçek işi yapamıyor olmasıdır
MMF eksikliği nasıl tespit edilir
- MMF’nin olmadığını anlamanın en güvenilir sinyali, human-in-the-loop’un hangi rolde konumlandığına bakmaktır
- MMF varsa human-in-the-loop bir özellik olarak çalışır; kaliteyi koruma, güven inşa etme ve edge case’leri ele alma rolü üstlenir
- Çekirdek işi AI yapar, insan ise gözetim ve onay sağlar
- MMF yoksa human-in-the-loop bir koltuk değneğine daha yakındır ve AI’ın çekirdek işi yapamadığı gerçeğini gizler
- İnsan artırıcı değil tamamlayıcı bir rol üstlenir; insanı çıkarırsanız ürün anında çalışmaz hâle gelir
- Basit ölçüt şudur: Bu iş akışında insanın tüm düzeltmelerini kaldırsanız müşteri yine de ödeme yapar mı?
- Cevap hayırsa MMF yoktur; geriye kalan şey yalnızca demodur
Stratejik ikilem: Bugün için mi inşa etmeli, gelecek için mi?
-
Beklemenin gerekçesi
- Şu anda MMF olmayan bir alanda girişim kurmak, başkalarının yol haritasındaki model iyileştirmelerine bahis yapmak anlamına gelir
- O yeteneklerin ne zaman geleceğini kontrol edemezsiniz; Anthropic ve OpenAI karar verirken runway tükenmeye devam eder
- Gerekli yeteneğe dair yargının kendisi de yanlış olabilir
- Dikeyin gerektirdiği %80 ile %99 doğruluk arasındaki fark ancak 5 yıl sonra kapanabilir ya da varsayılan biçimde hiç kapanmayabilir
- AGI’a inanıyorsanız modellerin bir gün neredeyse her şeyi yapabileceğini düşünebilirsiniz; fakat kritik olan olasılık değil, zamanlamadır
- Mesele AI’ın problemi çözüp çözemeyeceği değil, o zamana kadar girişimin hayatta kalıp kalamayacağıdır; bu da doğrudan runway meselesidir
-
Erken başlamanın gerekçesi
- Y Combinator’da sık dile getirilen bir karşı argüman var ve oldukça ikna edici
- MMF kilidi açıldığında gerekli olan tek şey model yeteneği değildir
- Alana özgü veri pipeline’ları
- Düzenleyici kurumlarla ilişkiler
- Yıllar içinde birikmiş müşteri güveni
- Derin biçimde entegre iş akışları
- Uzmanların gerçekte nasıl çalıştığına dair anlayış
- Hukuk girişimleri GPT-4’ü yalnızca sisteme eklemedi; önceden gerekli iskeleyi kurmuşlardı ve model geldiğinde hemen harekete geçebildiler
- Probleme en yakın ekipler, modelin değerlendirme ölçütleri, fine-tuning yönü ve dağıtım biçimi üzerinde doğrudan etki sahibi olur
- Yetenekleri pasif biçimde beklemek yerine, o dikeyde neyin gerçekten yetenek sayılacağını tanımlayan taraf olurlar
-
Çözüm
- Asıl soru erken başlayıp başlamamak değil, ne kadar erken başlayacağınız ve beklerken neyi inşa edeceğinizdir
- En riskli bölge orta alandır
- MMF’ye 24-36 ay sonra ulaşılacak gibi görünen durumlar
- Çok yakında olacakmış gibi hissettirir, ama birkaç finansman turunu tüketecek kadar da uzaktır
- Bu bölgede inanç düzeyi ve runway her şeyi belirler
- İki yıldan daha uzaktaki bir MMF’ye bahis yapıyorsanız, bunun beklemeye değecek devasa bir pazar olması gerekir
- Sağlık ve finansal hizmetler, bugünkü sonuçlar karışık olsa da Anthropic ve OpenAI’ın tüm gücüyle yüklendiği trilyon dolarlık pazarlardır
- Potansiyel yukarı yön çok büyük olduğu için erken konumlanma rasyonel görülebilir
- Değerlendirme formülü basittir
Beklenen değer = MMF’nin gelme olasılığı × pazar büyüklüğü × beklenen pay
MMF nasıl ölçülür
- Ürün-pazar uyumunun kesin ölçümü zordur; Andreessen bunu nitel biçimde tarif etmişti
- “PMF gerçekleşmediğinde bunu her zaman hissedersiniz; gerçekleştiğinde de her zaman hissedersiniz”
- MMF de özünde sezgisel bir kavramdır, ancak daha net ölçütlerle somutlaştırılabilir
-
MMF testi
- Temel soru: Model, insan uzmanın aldığı aynı girdileri aldığında, kayda değer insan düzeltmesi olmadan müşterinin para ödeyeceği bir çıktı üretebiliyor mu?
- Üç bileşen vardır
- 1. Aynı girdi
- Model, insanın aldığıyla aynı belge, veri ve bağlamı girdi olarak kullanmalıdır
- Gerçek iş akışında sunulamayacak sihirli ön işleme kabul edilmez
- 2. Müşterinin ödeme yapacağı çıktı
- Demo veya proof-of-concept değil, gerçek problemi çözen prodüksiyon kalitesinde sonuç
- 3. Kayda değer insan düzeltmesi olmadan
- İnsan gözden geçirebilir, düzeltebilir, onaylayabilir; ancak çıktının %50’si yeniden yazılmak zorundaysa modelin işi yaptığı söylenemez
-
80/99 farkı
- Regüle olmayan dikeylerde %80 doğruluk bazen yeterli olabilir
- Pazarlama metni taslağı hazırlayan bir AI, insan ciddi biçimde düzenlese bile değer yaratabilir
- Regüle dikeylerde (finans, hukuk, sağlık) %80 doğruluk fiilen işe yaramaz
- Kritik maddelerin %20’sini kaçıran bir sözleşme inceleme aracı avukata yardımcı olmaz, sorumluluk riski üretir
- Beş teşhisten birinde hata yapan tıbbi tanı sistemi ürün değil, dava riskidir
- %80 ile %99 doğruluk arasındaki fark, gerçek operasyonlarda çoğu zaman sonsuza yakın olabilir
- “Umut veren demo” ile “prodüksiyon sistemi” arasındaki belirleyici ayrım budur
- Birçok AI girişimi bu farkta sıkışıp kalıyor; demolarla fon toplarken ürünün gerçekten çalışmasını sağlayacak yeteneği bekliyor
Agentic eşik
- MMF tartışmalarının çoğunda gözden kaçan ikinci yetenek sınırı, uzun süre boyunca otonom biçimde çalışabilme becerisidir
- Bugün MMF’nin oluştuğu örnekler (hukuki belge inceleme, kodlama desteği) özünde kısa ufuklu işlerdir
- Prompt girilir, çıktı alınır; birkaç araç çağrısıyla saniyeler ya da dakikalar içinde faydalı sonuç üretilir
- Oysa en yüksek değerli bilgi işi bu şekilde işlemez
- Finans analisti tek bir soruyu yanıtlamaz; günler boyunca model kurar, varsayımları stres testinden geçirir ve onlarca kaynaktan bilgiyi sentezler
- Strateji danışmanı tek bir slayt hazırlamaz; haftalar süren araştırma, görüşmeler ve analizler yürütür
- İlaç keşfi araştırmacısı tek bir deney değil, aylar süren bir kampanya tasarlar ve yürütür
- Bu iş akışları, modellerin henüz güvenilir biçimde yerine getiremediği yetenekler gerektirir; bunun özü sürdürülebilir otonom operasyondur
- Agentic eşik sadece “araç kullanabiliyor mu” sorusu değildir
- Süreklilik: Hedefi ve bağlamı saatler veya günler boyunca koruyabiliyor mu
- İyileşme: Başarısızlığı fark edip nedenini teşhis ederek farklı bir yaklaşım deneyebiliyor mu
- Koordinasyon: Karmaşık hedefleri alt görevlere bölüp sıralı biçimde uygulayabiliyor mu
- Muhakeme: Ne zaman devam edilmesi, ne zaman durulup insandan yönlendirme istenmesi gerektiğini ayırt edebiliyor mu
- Bugünün ajanları dakikalar süren görevleri yönetebiliyor; ama bir sonraki aşamadaki ajanlar günler süren işleri üstlenmek zorunda
- Bu, kademeli performans iyileşmesi değil, yetenek düzeyinde bir faz değişimidir
- Finansın, “belgeleri iyi okuyor” denmesine rağmen neden MMF’ye ulaşamadığı da burada yatıyor
- 10-K okumak 30 saniyelik iş olabilir; ama yatırım tezi kurmak günler süren bir iş akışıdır
- Veri toplama, model kurma, senaryo testi ve sonuç sentezinin tamamında tutarlı akıl yürütme gerekir
- MMF kilidini açacak bir sonraki dalga, yalnızca daha akıllı modellerden değil, günler boyunca aynı işi otonom biçimde sürdürebilen modellerden doğacak
Yapısal kilit noktalar
- Andreessen’in temel içgörüsü, pazarın ekipten ya da üründen daha önemli olmasının sebebinin, iyi bir pazarın ürünü girişimin dışına doğru çekmesi olduğudur
- AI’daki kaçınılmaz sonuç ise, bu çekim kuvvetinin başlaması için ön koşulun model yeteneği olmasıdır
- Pazar ne kadar büyük ve istek ne kadar güçlü olursa olsun, çalışmayan bir ürünü çekemez
- AI’da “çalışmıyor” ölçütünü mühendislik ya da tasarım değil, modelin kendisi belirler
- En güzel arayüz, en zarif iş akışı, en gelişmiş veri pipeline’ı bile olsa, temel model çekirdek işi yapamıyorsa hepsi anlamsızdır
- MMF → PMF → başarı sırası atlanırsa ikinci aşama kurulamaz
- Kurucular için bu, yeteneklerin gerçekte nereye kadar geldiğiyle nerede olmasını istediklerini ayırıp acımasız bir dürüstlükle değerlendirmek anlamına gelir
- Yatırımcılar içinse yalnızca pazar büyüklüğünü ve ekip kalitesini değil, mevcut model yetenekleriyle pazar talepleri arasındaki boşluğu da değerlendirmek gerekir
- AI üreten herkes için geriye kalan soru, pazarın bunu isteyip istemediği değil, modelin bunu gerçekten sunup sunamayacağıdır
- Önemli olan tek şey budur
1 yorum
Yazılım Hayatta Kalma 3.0 – Hayatta Kalmak İçin Ne Yapmalı?
Son birkaç gündür nasıl hayatta kalınması gerektiğine dair yazılar sıkça göze çarpıyor.