Eğitilemeyen Şey

(saranormous.substack.com)

5 puan yazan GN⁺ 4 시간 전 | Henüz yorum yok. | WhatsApp'ta paylaş

2026 ortasında yatırımcılar arasında "AI psikozu" türü bir umutsuzluk yayılıyor; mantığın özü, model her şeyi daha iyi yapmaya başladığında onun üzerine kurulan tüm şirketlerin sonunda soğurulacak ince wrapper’lardan ibaret kalacağı
İlk yapay zeka SWE olan Devin, 2024’te standart benchmark görevlerinin yalnızca %13’ünü çözebilmişti; ancak 1,5 yıl içinde en iyi ajan %80’lerin sonuna ulaştı ve model, önce ölçülebilir alanları hızla işgal etmeye başladı
Ölçülebilen şey eğitimin hedefi olur ve commodity’ye dönüşür; buna karşılık özel olan ve doğrulama maliyeti yüksek doğru cevaplar leaderboard’dan okunamaz
Asıl değer, lisans, sorumluluk ve hesap verebilirlik gibi modelin erişemeyeceği alanlardadır; darboğaz zeka değil, izin (permission) ve hesap verebilirliktir (accountability)
Zeka ucuzladıkça değer, modelin ulaşamayacağı az sayıdaki konuma kayar; nihai hendek (moat) “eğitilemeyen alan (untrainable)” olur

Yatırımcı umutsuzluğu ve bunun mantığı

2026 ortasındaki yatırımcı kaynaklı umutsuzluk, yatırım yapılacak bir şey kalmadığı algısına dayanıyor; para yalnızca Anthropic ve Nvidia’ya konulmalı, geri kalanından vazgeçilmeli duygusu hakim
Mantık şu: Model her şeyi daha iyi yapmaya başladığında, onun üzerine kurulan tüm şirketler soğurulmayı bekleyen ince wrapper’lar (thin wrapper) olacak; ayakta kalan tek değer compute ve frontier weights olacak
- Bu mantığın en güçlü dayanağı olarak da yazılım alanı gösteriliyor

Yazılımın gösterdiği gerçek ders

Devin, 2024’te çıktığında standart yazılım benchmark’ındaki görevlerin yalnızca %13’ünü çözdüğü için büyük ölçüde ciddiye alınmadı; ama 1,5 yıl sonra en iyi ajan %80’lerin sonuna ulaştı ve Goldman Sachs ile U.S. Army içinde gerçek işlerde kullanılmaya başlandı
Neredeyse herkes bundan "model yazılım mühendisliğini yuttu" şeklinde yanlış bir ders çıkardı; oysa mühendislik her zaman ölçüme direnmiştir ve en ölçülebilir kısmı, işin tek önemli kısmı değildir
MIT’den Mert Demirer ve ortak yazarları 100 binden fazla geliştiriciyi sayısallaştırdı; en güncel coding agent, yazılan kod miktarını yaklaşık %180, gerçekten production’a alınan miktarı ise yaklaşık %30 artırıyor
- Kod yazmak ucuzladı, ama geri kalan süreç hâlâ insanlardan geçiyor ve önemli olan da orası

Ölçülebilen şey eğitim hedefi olur

Benchmark, ölçülebilen şeydir; ölçülebilen şey de eğitimle hedef alınabilir; bu yüzden coding agent’lar ilk olgunlaşan alan oldu
- Compiler ve test suite ücretsiz bir doğrulayıcı (free verifier) gibi çalışır; cevap kendini kontrol eder, bu yüzden geçene kadar tekrar tekrar çalıştırılabilir
Ama testten geçmek, o değişikliğin 10 yıllık bir codebase içinde doğru tercih olduğunu söylemez
- Bir modülün var olmasının belgelenmemiş üç nedeni ya da kimsenin yazdığını kabul etmediği bir cron job tarafından ayakta tutulan deployment pipeline gibi şeyler leaderboard’dan okunamaz
Karmaşık sistemlerde doğruluğun anlaşılması, sistemin dünyada yeterince uzun süre çalıştırılmasını gerektirir; daha akıllı model, dünyayı daha hızlı döndüremez
- OpenAI’ın reasoning model’lerinin öncülerinden Noam Brown, bir ajanı 1 yıllık periyotta değerlendirmenin tek kesin yolunun onu gerçekten 1 yıl çalıştırmak olabileceğini söylüyor

Sadece organizasyonun hızı kadar ilerleyen şeyler

Gabe Pereyra’ya göre gerçek otomasyon yalnızca model iyileşmesi değildir; product·model·workflow·firm birlikte hareket etmelidir ve bunların üçü organizasyon hızında ilerler
Benchmark’ın ulaşamadığı alan, insanları hareket ettirmektir; yani şüpheci bir partnerin çalışma biçimini değiştirmek ya da yeniden yapılanma sırasında ekibi bir arada tutmak
- CEO seçerken analiz yeteneği kadar insan yönetme becerisine de önem verilir ve daha akıllı modeller bu ağırlığı değiştirmez
Her şirket tüm mühendislere frontier coding model verdi ama bu hızda mühendislik organizasyonunu (eng org) dönüştüren tek bir şirket bile olmadı
- Benimseme bir çeyrek içinde gerçekleşti, yeniden yapılanma ise yıllar sürüyor

Okunabilen işler sahneyi terk ediyor

Leaderboard’a konabilen şeyler, yakında eğitimle hedef alınabilir hâle gelir; bu yüzden ölçülebilen her iş, zaten commodity olmaya doğru gidiyor ve bu yön geri dönmeyecek
Rippling’den Matt MacInnis’in benzetmesiyle, genel bir soruya cevap veren token neredeyse değersizdir çünkü herhangi bir model bunu üretebilir; buna karşılık şirket verileri üzerinde akıl yürüten token çok daha değerlidir
Okunabilen işler hem aşağıdan hem yukarıdan aşındırılıyor
- Aşağıdan, görevler doygunluğa ulaşıyor; alıcı artık "hangi model?" diye değil "maliyeti ne?" diye soruyor ve seçim o haftanın en ucuz open/distilled modeline kayıyor
- Yukarıdan ise lab’ler, retrieval·routing·tool use·reasoning policy gibi modeli saran iskeleyi (scaffolding) weights’in içine çekiyor; bir absorption frontier ilerliyor
Marj baskısı ters yönde de çalışıyor: Genel amaçlı ajanlar her şeye hazırlıklı olmak zorunda olduğu için pahalı, ama odaklanmış uygulamalar tek bir workflow’u token maliyetinin küçük bir kısmıyla çalışacak şekilde ayarlanabiliyor ve aradaki farkı doğrudan kendileri alıyor

2x2 ve “eğitilemeyen alan”

Her iş için iki soru sorulabilir: Doğruluk özel mi ve bunu tesis etmenin maliyeti yüksek mi? Bir de, bu iş dışarıdan girilemeyen sistemlerin içine mi hapsolmuş?
Bunu görev doygunluğuyla çakıştırınca 2x2 bir çerçeve oluşur
- Doygunluk + açık doğru cevap = commodity token; bunu open model kapar
- Frontier + açık doğru cevap (coding benchmark’ın bulunduğu yer) = lab kazanır; değerlendirme ücretsizse sahiplik anlamsızdır
- Son köşe = doğruluğun yalnızca özel olarak var olduğu frontier işler; işte bu untrainable’dır
Bunu, inference cloud üzerinde AI-native lider şirketlerin token’larının ezici çoğunluğunu genel amaçlı open model yerine custom model ile üretmesinden görmek mümkün
Bu son köşeye giriş duvarının yüksekliği ise değişir
- Bireysel geliştiricinin toy codebase’i taşınabilir ve standartlaştırılmıştır; giriş bariyeri düşüktür
- Bir bankanın production sistemi ise bunların hiçbiri değildir; SWE-Bench Verified’da %2 daha akıllı olmak size root yetkisi kazandırmaz

Darboğaz zeka değil, izin ve hesap verebilirlik

Daha iyi modeller bile özel doğruları (private ground truth) kamusallaştıramaz; lisans sahibi olamaz, sorumluluk üstüne imza atamaz, şirket dosyalarına sahip olamaz ya da cevap yanlış çıktığında dava edilen taraf olamaz
- Darboğaz zeka değil, permission ve accountability’dir
O kapıda hem kilit (lock) hem sürgü (deadbolt) vardır
- lock çevredir; güvenlik incelemesi, entegrasyon ve sonuca adını yazdıran sözleşmeler üzerinden güven inşa etmeden, sistem içinde AI’ın faydasını doğrulamak mümkün değildir
- deadbolt ise kullanıcıdır; çok sayıda ABD’li doktorun her gün OpenEvidence açma alışkanlığı, hiçbir compute ile satın alınamaz
Yarın kusursuz bir tıbbi model eğitseniz bile, doktor alışkanlıklarına ya da UCSF’nin karar akışına girecek bir yolunuz olmaz; güven, ilişkiler ve kullanıcı onayı üzerinde yavaş yavaş birikir

İşin kendi doğası

Bir uygulamanın untrainable köşede yer edinmesinin yolu gösterişli değildir; şirketin özel gerçekliğini modelin işleyebileceği şekilde düzenlemek (arrange), ona eylem araçları vermek ve müşteriyle birlikte iş gücü gerçekliğini değiştirmek gerekir
- Bu çeviriyi (translation) yapan şirketler zor kopyalanır ve bu çeviri hiçbir zaman bitmez
- Entegrasyon ve bakım, ilişki sürdükçe devam eder; müşterinin yanında alan uzmanı mühendisleri ve araçları bulunduran ekipler kazanır
Örnek: büyük bir hukuk bürosunda M&A
- En üst düzey bir white-shoe hukuk bürosunda yalnızca bir M&A bölümü yılda yaklaşık 1.000 anlaşma yürütür; yüzlerce associate’in kendi client file’larını masaüstüne indirip genel amaçlı bir ajana taratması mümkün değildir
  - Bunun gizlilik gibi birçok nedeni vardır; mümkün olsa bile elde edilen şey, kişi başına tek tek düzeltmelerden ibaret kalır ve anlaşmanın tüm akışı görünmez
- Anlamlı sinyal anlaşma düzeyinde (level of the deal) bulunur ve anlaşmaların bir şekli vardır
  - M&A: NDA·term sheet·diligence·purchase agreement·ancillaries·closing checklist
  - IP litigation: motion·discovery·prior art·ek motion’lar
  - Her practice area kendine özgüdür; ne avukatlar ne de araçlar birbirinin yerine geçer
- Hukuk bürosunun gerçekten çözdüğü problem bir üst seviyededir: tüm practice area’ları paralel işletmek, üst düzey partner’ların yüzlerce işi aynı anda çevirmesi, yeni işler getirmesi ve associate’leri yetiştirmesi
  - Böyle bir hukuk bürosunu dönüştürmek, eval olarak yazılabilecek tek bir görev değildir; son derece belirsiz ara hedefler, eksik geri bildirim, çok uzun süre ve durmayan bir çevre içinde operatörün (operator) hassas yönetimi gerekir

Okunması zor olan değeri satmak da zordur

Dışarıdan bakınca AI’ın operasyonu değiştirip değiştirmeyeceğini şirketin kendisi bile bilemez; bu yüzden en güçlü işler, dış kanıt üretmeyi bırakıp içeri girer ve sonuca (outcome) göre fiyatlandırır
Sierra, ajan müşteri sorununu çözdüğünde ücret alıyor; insana devredildiğinde ücret almıyor. Fiyat bizzat değerlendirmeye dönüşüyor ve bu, Sierra’nın resolved tanımını sahiplenmesi sayesinde çalışıyor
Cognition’ın Devin’i de yazılım tarafında benzer şekilde performance guarantee sunuyor; bu yaklaşım, yalnızca güvenilen sistem içindeki sonuçlar için mümkün

Token serving de saf commodity değil

Saf commodity diye görülen token serving bile pratikte öyle davranmıyor; en iyi AI-native şirketler serving’i bir ya da iki sağlayıcıda (Baseten veya Fireworks) yoğunlaştırıyor
- Token başına maliyet beklendiği gibi commodity’leşiyor, ama gerçek trafik altında reliability ve kıt compute’a garantili erişim commodity olmuyor
- Nerede serving yapılacağı, hangi modelin kullanılacağından farklı bir karardır; inference tarafında commodity gibi davranan kısım yalnızca **fiyat (price)**tır

Lab’in tedarikçi olduğu itirazı

Yaygın itiraz şu: Tedarikçi lab ise, kendi ürününü maliyetin altında çalıştırıp herkesi yok edebilir ya da API erişimini keserek pazarı doğrudan ele geçirebilir; umutsuzluğun gerçek versiyonu budur
Ama bu mantık, model katmanının tek oyunculu bir oyun olması durumunda geçerli olur; oysa açıkça öyle değil
- Daha doğru benzetme, 6 ay geriden gelen uluslararası oyuncuların da katıldığı "3,5 oyunculu bir ölüm maçı" ve geliştirici ligi geçen yılın 5 katı büyüklükte
- Müşteriler tedarikçiler arasında rekabet istiyor; lab’ler de tek bir uygulamayı öldürmekten çok pazar payı (market share) istiyor
Bu durum, lab’lerin birbirine doğrudan rakip olduğu pazarda da görülebilir; consumer chat’te en iyi model sırf daha iyi olduğu için hiç kazanmadı
- ChatGPT yıllardır gerçek rekabet içinde lider kaldı; bugün kaybettiği pay, daha iyi bir model yüzünden değil, Android ve Search gücüyle desteklenen Gemini’ye gidiyor
- Prediction market’lar ve internet havasına göre en iyi model kabul edilen Anthropic, consumer chat’te neredeyse hiç etkili değil; işini enterprise ve coding üzerinde kuruyor
- En merkezi uygulamada bile daha iyi model rakibin kullanıcılarını alamıyorsa, hastane kayıtlarına ya da banka sorumluluğuna entegrasyonla giremez

Neyin iyi cevap olduğunu tanımlama hakkı

Dışarıdan puanlanamıyorsa, içeride birilerinin iyi cevabın ne olduğuna karar vermesi gerekir; bütün oyun da bu karardır
- Bu kararlar yeterince birikip kayda geçince benchmark olur; Harvey hukuk için, Sierra ise voice agent için bunu yayımladı
- Bir alanda good’u tanımlama hakkı, o alanın zaten kullandığı taraf olunarak kazanılır; bu şirketler bu hakkı, gerçek benimseme mücadelesinin içinden geçerek elde etti
Gerçek parayı ayıran değerlendirmeler özeldir ve şirkete özeldir; yani bu şirket, bu tür işte neyi iyi iş olarak kabul ediyor? Hukukun derinliği herhangi bir açık testi ezip geçtiği için bu süreç asla tamamlanmaz
Bu ölçüm değil, neyin doğru ve neyin iyi olduğuna dair yargıdır (judgment); kayda geçirilip standarda dönüşür, ama foundation lab ne kadar akıllı olursa olsun bunu yazamaz
- Bu konum yalnızca alanın içinde vardır; otorite zaten bulunduğu yere geri oturur
- Hukuk benchmark’ını kıdemli avukat, güvenli klinik cevabı doktor, resolved’ın anlamını ise müşteriye zaten sahip olan şirket belirler

Sonsuza kadar yeniden underwrite edilmesi gereken savunma

Daha fazla iş ölçülebilir hâle geldikçe absorption frontier de yükselmeye devam eder ve ölçülebilen her şey yutulur
Untrainable alan, üzerinde duranların ayakları altında daralır; güvenli bir noktaya yerleşip kalamazsınız. Hâlâ puanlanamayan yerlere sürekli ilerlemek ve durmadan yeniden re-underwrite etmek gerekir
Dar bir görevde özel veri ve kendi eval’inizle frontier seviyesine kadar eğitim yaparsanız, o noktada genel amaçlı modeli geçersiniz; bu uzmanlaşmış model de hendek (moat) bileşenlerinden birine dönüşür
Tersi durumda, genel amaçlı model alanında rekabet etmek, en çok compute’a sahip olana kaybedilen bir sermaye savaşıdır; erişimi sığ, görevi kolay okunan şirketlerin tuzağı budur
- Hayatta kalmak için genel alanda frontier’ı aşacak şekilde eğitim yapmaya karar verdiğiniz gün, kazanan veri merkezi ölçeğiyle belirlenir; son da bağımsız bir şampiyon değil, compute’u bol olana satış olur

Daha zor saldırı: Ne inşa edileceğini seçmek

Yukarıdakilerin tamamı savunmayla ilgili; daha zor olan saldırı ise en başta neyin inşa edileceğini seçmektir ve bu tür fırsatlar yılda yaklaşık üç kez bulunur
Modeller burada yardımcı olmaz; gösterdiğiniz şeyi yaparlar ama neyi göstermenin değerli olduğunu söyleyemezler ve benchmark’lanamadığı için eğitilemezler
- Mevcut devlerin her şeyi alamamasının nedeni de budur; sıradaki büyük şey, kullanım alanını herkesten önce fark eden birinden çıkar
- Belki de niyet (intent), compute’tan daha kıt bir girdidir

Sonuç: Tarihi olan değer

Umutsuzluk yarı yarıya doğru: İnce wrapper katmanı gerçekten soğuruluyor ve bugün şirket gibi görünen birçok şey aslında ince wrapper
- Ama bunun geride neyi bıraktığı konusunda yanılıyor; soğurmanın mekanizması açık, ancak nihai varış noktası belirsiz
Zeka ucuzlamaya devam ettikçe değer, modelin erişemeyeceği az sayıdaki yere kayıyor; bu yerler untrainable — ilişki, güven ve birikmiş yargı gibi zaman içinde oluşan ve eğitimle kopyalanamayan “tarihi olan değer (value with history)”
Bu yüzden zekânın kendisine sahip olmaya çalışmayın; doğru cevabın yalnızca o alanın içinde var olduğu bir yere girmeniz gerekir ("get inside one")
- Şirketin özel gerçekliğini modelin işleyebileceği hâle getiren gösterişsiz çeviri (translation) işini bizzat yapın
- Asıl mesele, o alanda neyin good (iyi cevap) sayıldığını kayda geçirip standardı tanımlayan taraf olmaktır; bu koltuk boş değildir, ben yapmazsam mutlaka başkası yapacaktır
Bu yıl en çok alıntılanan benchmark puanı, bir övünç değil uyarıdır; yakında değersizleşecek bir bölgenin haritası ve neyin good olduğuna karar verme hakkını yakında kaybedecek olanlara bir bildirimdir
- Bir şeyin kamuya açık biçimde ölçülebilir hâle gelmesi, onun commodity’ye dönüşmekte olduğunun işaretidir; kamusal puanlama herkes tarafından yakalanabildiği için, o skorda birinci olan taraf bile good’un standardını tanımlama hakkını kaybeder

Eğitilemeyen Şey

Yatırımcı umutsuzluğu ve bunun mantığı

Yazılımın gösterdiği gerçek ders

Ölçülebilen şey eğitim hedefi olur

Sadece organizasyonun hızı kadar ilerleyen şeyler

Okunabilen işler sahneyi terk ediyor

2x2 ve “eğitilemeyen alan”

Darboğaz zeka değil, izin ve hesap verebilirlik

İşin kendi doğası

Örnek: büyük bir hukuk bürosunda M&A

Okunması zor olan değeri satmak da zordur

Token serving de saf commodity değil

Lab’in tedarikçi olduğu itirazı

Neyin iyi cevap olduğunu tanımlama hakkı

Sonsuza kadar yeniden underwrite edilmesi gereken savunma

Daha zor saldırı: Ne inşa edileceğini seçmek

Sonuç: Tarihi olan değer

İlgili okumalar

Henüz yorum yok.