LLM'lerin son 6 ayına 5 dakikada bakış
(simonwillison.net)- Kasım 2025, LLM’lerdeki son değişimlerin referans noktası haline geldi; kodlama ajanlarının pratik kullanıma ulaşması ve dizüstünde çalışan modellerin yükselişi bunun merkezindeydi
- Claude Sonnet 4.5’in ardından GPT-5.1, Gemini 3 ve Claude Opus 4.5 hızla yarışa girdi; Opus 4.5 birkaç ay boyunca lider gibi göründü
- OpenAI ve Anthropic’in doğrulanabilir ödüllerden pekiştirmeli öğrenme yaklaşımı, Codex ve Claude Code gibi harness’lerde kod kalitesindeki artışla kendini gösterdi
- Tatil dönemi deneyleri micro-javascript gibi ilginç sonuçlar doğurdu, ancak hatalar, hız ve güvenlik nedeniyle gerçek ihtiyaç sınırlı kaldı
- Gemma 4, GLM-5.1 ve Qwen3.6-35B-A3B gibi açık ağırlıklı modeller, frontier modellere göre daha zayıf olsalar da beklentileri ciddi biçimde aşmaya başladı
6 ayı belirleyen iki akım
- Kasım 2025’teki dönüm noktası, son 6 aydaki LLM değişimini görmek için iyi bir referans; özellikle de kodlama alanında önemli bir aydı
- Son 6 ayın temel değişimi iki başlıkta özetlenebilir
- Kodlama ajanları, gerçek günlük işlerde kullanılabilecek kadar iyi hale geldi
- Dizüstünde çalışabilen modeller, frontier modellerden daha zayıf olsalar da beklentileri ciddi biçimde aşmaya başladı
- Model karşılaştırmalarında bisiklete binen pelikan SVG üretimi testi kullanılıyor
- Bunun arka planında, pelikan çizmenin zor olması, bisiklet çizmenin de zor olması, pelikanların bisiklete binememesi ve herhangi bir yapay zeka laboratuvarının modeli özellikle böyle bir görev için eğitmiş olma ihtimalinin düşük olması yatıyor
Kasım ayındaki frontier model yarışı
- Kasım başında yaygın biçimde “en iyi” kabul edilen model, 29 Eylül’de duyurulan Claude Sonnet 4.5 idi
- Sonrasında “en iyi” model unvanı üç büyük sağlayıcı arasında hızla el değiştirdi
- Gemini 3, bu grup içinde en iyi pelikan çizimini yaptı, ancak yalnızca pelikan testiyle bir modeli bütünüyle değerlendirmek mümkün değil
- Claude Opus 4.5, sonraki birkaç ay boyunca önde görünen modeldi
Kodlama ajanlarında kalite eşiğinin aşılması
- Kasım ayındaki asıl değişim, kodlama ajanlarının kalite artışıydı
- OpenAI ve Anthropic, 2025’in büyük bölümünü modellerin yazdığı kodun kalitesini artırmak için doğrulanabilir ödüllerden pekiştirmeli öğrenmeye(Reinforcement Learning from Verifiable Rewards) ayırdı
- Bu iyileşme, özellikle Codex ve Claude Code gibi ajan harness’leriyle birleştiğinde belirgin hale geldi
- Kasım ayında kodlama ajanları “bazen çalışıyor” seviyesinden “çoğunlukla çalışıyor” seviyesine geçti
- Kullanıcının zamanının çoğunu aptalca hataları düzeltmeye harcamadan gerçek işleri devredebileceği günlük araçlar düzeyine ulaştılar
Tatil dönemi deneyleri ve aşırı heyecan
- Aralık’tan Ocak’a kadar birçok kullanıcı tatil dönemini, yeni modellerin ve kodlama ajanlarının neler yapabildiğini denemek için kullandı
- Modeller ve ajanlar pek çok işi başardı; bazı kullanıcılar iddialı projeleri hızla üretmeye başladı
- micro-javascript, MicroQuickJS’in gevşek bir Python portu olan bir JavaScript uygulamasıydı
- Tarayıcı playground’u, JavaScript kodunun micro-javascript kütüphanesinde çalıştığı; bu Python kodunun ise Pyodide içinde, WebAssembly içinde, JavaScript içinde, tarayıcı içinde çalıştığı bir yapıya sahipti
- Ortaya çıkan şey ilginçti, ancak hatalı, yavaş ve güvenli olmayan, yarım kalmış bir JavaScript’in Python implementasyonuna gerçekten ihtiyaç duyan kimse yoktu; aynı dönemde yapılan diğer projeler de sessizce emekliye ayrıldı
OpenClaw ve kişisel yapay zeka asistanı çılgınlığı
- İlk commit’in Kasım sonunda geldiği sırada pek bilinmeyen “Warelay” deposu, sonrasında hızla dikkat çekti
- Aralık ile Ocak arasında birkaç kez isim değiştirdikten sonra, Şubat ayında nihai adı OpenClaw ile büyük ilgi gördü
- OpenClaw, bir “kişisel yapay zeka asistanı” ve NanoClaw ile ZeroClaw gibi projeleri kapsayan genel bir ad olarak Claws ifadesi ortaya çıktı
- Silikon Vadisi çevresinde insanlar Claw çalıştırmak için Mac Mini satın almaya başlayınca Mac Mini stokları tükenmeye başladı
- Drew Breunig, Claw’ı yeni bir dijital evcil hayvana benzetti ve şaka yollu Mac Mini’nin Claw için mükemmel bir akvaryum olduğunu söyledi
- Claws için yapılan benzetmelerden biri, 2004 yapımı Spider-Man 2 filminde Alfred Molina’nın canlandırdığı Doc Ock oldu
- Onun kolları yapay zeka ile çalışıyordu ve baskılama çipi zarar görmediği sürece güvenliydi; ama çip bozulduktan sonra kötüleşip onun kontrolünü ele geçirdi
Gemini 3.1 Pro ve pelikan testinin genişlemesi
- Şubat ayında Gemini 3.1 Pro duyuruldu ve bisiklete binen pelikanı son derece iyi çizdi
- Sonuçta sepette balıklar bile vardı
- Google’dan Jeff Dean, bisiklete binen animasyonlu bir pelikan videosu paylaştı
- Aynı videoda penny-farthing süren bir kurbağa, küçük bir araba kullanan zürafa, paten kayan devekuşu, kickflip yapan bir kaplumbağa ve stretch limuzin süren bir dachshund da vardı
- Bu sonuç, yapay zeka laboratuvarlarının pelikan testi gibi tuhaf görevlere de ilgi göstermiş olabileceği fikrini şaka yollu akla getirdi
Nisan ayındaki açık ağırlıklı modeller
- Google, Gemma 4 model serisini duyurdu
- Gemma 4, ABD merkezli bir şirketten gördüğü açık ağırlıklı modeller içinde en yeteneklisi olarak değerlendirildi
- Çinli yapay zeka laboratuvarı GLM, GLM-5.1 modelini duyurdu
- GLM-5.1, 1.5TB boyutunda bir açık ağırlıklı model
- Çalıştıracak donanıma sahipseniz son derece etkili bir model
- GLM-5.1, bisiklete binen pelikanı oldukça ustaca çizdi, ancak animasyon denemesinde bisiklet yukarı sıçrayıp bozuldu
- Charles’ın Bluesky’da önerdiği “elektrikli scooter süren North Virginia opossumu” görevinde ise diğer modellerin yaklaşamadığı bir sonuç üretti
- Sonuçta “Cruising the commonwealth since dusk” ifadesi yer aldı
- Çıktı animasyon olarak da sunuldu
Dizüstünde çalışan modellerin beklentileri aşması
- Nisan ayının dikkat çeken bir diğer Çinli açık ağırlıklı modeli Qwen’den geldi
- Qwen3.6-35B-A3B, dizüstünde Claude Opus 4.7’den daha iyi bir pelikan çizdi
- Bu model 20.9GB açık ağırlıklı bir model ve dizüstünde çalıştırılabiliyor
- Bu sonuç aynı zamanda “bisiklete binen pelikan”ın faydalı bir benchmark olarak sınırlarını çoktan aştığını da gösterdi
- Dizüstünde çalışabilen modeller, frontier modellere göre çok daha zayıf olsalar da son 6 ayda beklentilerin çok üzerinde sonuçlar üretmeye başladı
1 yorum
Hacker News yorumları
Herkes bu pelikan bisikleti testinin saçma bir metrik olduğunu söylüyor ama bunun aslında yaklaşık 3 yıl önce Microsoft’un erken dönem GPT raporu olan "Sparks of Artificial General Intelligence: Early experiments with GPT-4" içinde tanıtıldığını [1] pek hatırlamıyor gibi görünüyor
Ardından bunu tanıtım hesaplarından oluşan bir ağ hemen yaydı ve yapay zeka abartısı yapanların modeli “test” ederken her seferinde kullandığı bir şeye dönüştü
%100 pazarlama, %0 bilim
[1] https://arxiv.org/pdf/2303.12712
Makalede “bisiklete binen pelikan” isteminin özel olarak test edildiği bir örneği[1] bilmiyorum ama GPT makalesinde çeşitli SVG ve tikz testleri vardı ve gerçek görüntü oldukça keyfiydi
Tek bir görsele aşırı optimize olmak istenen bir şey değil ama eğitim az çok düzgün yapıldıysa bisiklete binen bir pelikan o kadar da zor olmamalı ve [0] içindeki birkaç sayfaya bakarsanız epey iyi örnekler de var
[0] https://simonwillison.net/tags/pelican-riding-a-bicycle/?pag...
[1] Simon’ın ünü nedeniyle bunun kesin bir yerlerde olduğunu düşünüyorum
Az önce ChatGPT’nin varsayılan modeliyle (5.5) denedim; yaşlı adam eski bir bisiklet sürüyordu ve bisiklet gevşek bir ipin üstündeydi, o ip de nehrin üzerinden geçiyordu, arka planda da ortaçağ kasabası vardı
Asıl nokta, istemde ince bir çift anlamlılık olması. “Yaşlı adam nehri nasıl geçiyor?” kısmında çoğu insan muhtemelen nehrin üzerinden geçen sıradan bir köprüyü hemen hayal eder ve böyle bir köprünün olduğu kadar gelişmiş bir bölgedeki nehir manzarasını düşünür
Bu yüzden bence bu modeller, koşulları kabaca karşılayan şeyleri bulma ya da üretme konusunda gelişiyor ama insanların doğal biçimde çıkaracağı sağduyulu varsayımları hâlâ kaçırdıkları yerler var
“Dönüm noktası” gerçekten yaşanmış bir şey mi yoksa pazarlama mı, merak ediyorum
Modellerin bir miktar daha iyi olduğu doğru ama bugün bile en yeni modellerle (Codex + gpt5.5, gpt5.3-codex kombinasyonu) bir oyunu vibe coding ile yapmaya çalışınca epey zorlanıyorlar
İskeleti kesinlikle kurup çalıştırıyorlar ama cilalı bir uygulamadan hâlâ uzaktalar
Enigma şifre makinesinin nasıl çalıştığını öğrenmek için kendim bir şeyler yazdım ama o da öğrenme amaçlıydı
İş anlamında bakarsak kasımdan beri kod yazmayı bırakmış durumdayım
Çünkü belirli bir kullanım için “yeterince iyi” eşiği aşıldığında yetenekler bir anda açılıyor
Eski çivi tabancaları ağır ve kalın güç kabloları gerektirirdi, ayrıca çok pahalıydı
Hafifleyip ucuzladıklarında ve batarya paketi kullanmaya başladıklarında bir noktada çatı ustalarının iş akışına doğal şekilde oturdular ve yapabildikleri iş miktarını dramatik biçimde artırdılar
Ondan sonraki sınır iyileştirmeleri aynı türden bir “kilit açma” yaratmayabilir; çünkü eşik zaten aşılmıştır
Kritik nokta başta genel tasarım dokümanına ciddi zaman ayırmak ve bunu somut, kısıtlı adımlara bölmekti
Dokümanı iki model arasında gidip gelecek şekilde, ikisi de tatmin olana kadar rafine ettim
Her adım için bir uygulama planı yaptım ve bittiğinde ne teslim edildiğini ve nelerin keşfedildiğini özetleyen bir belge bıraktım. Bu da sonraki adımın girdisi oldu
Dokümanları ve gerçek işi kontrol ettim, testlere baktım, bazı kısımları daha yakından inceledim. Kod yapısını beğenip beğenmediğime de kısmen baktım
Genelde kod yazdırmak için Claude’u, tasarım ve adım adım kod incelemesi için Codex’i kullandım; her adımın sonunda da ikisine birden test kapsamını kontrol ettirdim
Bu şekilde tek satır kod yazmadan araçlar ve kütüphaneler geliştirdim ve gerçekten oldukça faydalı oldu
Süreç asenkron yürüdüğü için modeller yavaş yavaş çalışırken ben başka işler yapabiliyorum
Yine de bunun evrensel olduğunu düşünmüyorum. Kolay test edilebilen, hedefin net anlaşıldığı ama tam yöntemin baştan belirlenmediği işlerde etkileyiciydi
Web siteleri ve sosyal ağlardan metin/görsel karışımı düzensiz etkinlik verisi çekmek için LLM kullanıyorum; makul maliyetle %100 tutarlı sonuç almak için işi çok küçük parçalara bölüp hata alanını ciddi biçimde daraltmaktan başka çare bulamadım
Şu anda orta karar karmaşık işlerde Codex/Claude kullanıcıyı gayet isteyerek pahalı çıkmaz sokaklara kodlayıp sokabiliyor
GPT 5.5, GPT 5.4’e göre ciddi biçimde daha iyi ama ben buna dönüm noktası demezdim
“Kodlama ajanları gerçekten çok gelişti” denince, 2025 Kasım’daki sözde “dönüm noktası” sonrasında bile bunun gerçekten kimin için çok geliştiğini merak ediyorum
Gözlemlediğim kadarıyla araç çağrıları ve büyük kod tabanları hakkında soru-cevap konusunda, özellikle aranacak desenin belirsiz olduğu sorularda daha iyiler ve bu kullanım için çok faydalılar
Ama ne kadar çok yönlendirme ve gözetim eklerseniz ekleyin, prodüksiyon kodu üretimi açısından hâlâ hiç o seviyede değiller; kişisel deneyimime göre yanına bile yaklaşmış değil
Pazarlama abartısı içinde bunu 1 ve 0 gibi konuşmayı bırakmamız gerekiyor. Ajan yetenekleri sürekli bir spektrum ve üzerinde çalıştığınız kod tabanının karmaşıklığına çok bağlı
Bence herkes gündelik işinde bu araçları daha iyi nasıl kullanacağını hâlâ çözmeye çalışıyor
Ama bu, mevcut anlatıyla çelişiyor. Çünkü o anlatı işlerimizi her zaman aynı, kolay otomatikleştirilebilir şeylermiş gibi dümdüzleştiriyor; oysa gerçek öyle değil
Tartışmanın bu kadar kutuplaşmasının nedeni de bence bu. Ortak bir deneyim yok
Örneğin benim deneyimim tam tersiydi ve Claude ile çok yüksek kaliteli işler ürettim (https://github.com/kstenerud/yoloai)
Kullandığım teknolojilerdeki hata ve tuhaflıklarla uğraşırken, ajan uygulama aşamasında sürekli tökezlememek için bunları tespit edip listelemekte çok yardımcı oldu: https://github.com/kstenerud/yoloai/blob/main/docs/dev/backe...
Ajanlar sürekli daha iyi oluyor. Sadece son bir ayda bile araştırma, tasarım, mimari ve planlama belgeleri üretirken sorunları öngörme ve sonuçlarını doğru çıkarma becerileri epey etkileyiciydi
Kodlama aşamasına gelince işin büyük kısmı mekanik ve Sonnet’e devretsen bile kusur oranı çok düşük
Benim deneyimimde Claude Code, özellikle Opus 4.6, bu işte harika. En azından JS, TS, Elixir ve Ruby için böyle
Elbette gözetim gerekiyor; ama zihnimdeki model “junior geliştirici”den çok bir dış iskelet gibi. Ve his olarak çoğu işte hızımı rahatça 10 kat artıran çok güçlü bir dış iskelet bu
Özellikle
--dangerously-skip-permissionskullanmıyorum ve Claude Code’un otomatik modunu da açmıyorum. Yazılan her satırı hafifçe gözden geçirip süreci sıkı yönetiyorum, bu yüzden eşzamanlı üretim oturumlarım genelde 2’yi geçmiyorHayal kırıklığının çoğunun, insanların bunu tamamen delege etmeye çalışıp raydan çıkmayacağına güvenmek istemesinden doğduğundan şüpheleniyorum. Benim için henüz o güveni kazanmadı ve şimdilik buna gerek de olmadı
Ama çoğunlukla testleriyle birlikte 20 bin ila 30 bin satırlık küçük ve orta ölçekli kod tabanlarında çalışıyorum. Belki de olumlu deneyimimin nedeni budur
Gerçekte (a) insanların yapay zekâyla çalışma biçimleri sayısız küçük ada gibi birbirinden çok farklı ve (b) darboğazlar geliştiriciye ve kod tabanına/göreve göre inanılmaz değişiyor
Ayrıca çağımızda değişim = ilerleme = üretkenlik gibi içkin bir önyargı da var bence
1990-2000 döneminin “ağ bilişimi devrimi”ne bakarsanız, bilgisayarlar her masaya ve cebe girdi ve idari işler için çok güçlü oldular
Ama nihai sonuç “değişim”di. Mektuptan çok daha fazla e-posta gönderir olduk, çok daha fazla iletişim kurar olduk; sekreterler ortadan kalktı ama “idari iş”in kendisi arttı
Üniversite fakültelerinde genelde daha çok idari personel var ve şirketler daha fazla muhasebeci, İK uzmanı ve proje yöneticisi istihdam ediyor
Belki de idari işler baştan beri gerçek darboğaz değildi
Kod da birçok açıdan böyle. Herkesin bir yol haritası ve istek listesi var; bu yüzden “kod üretme kapasitesi” darboğaz gibi görünüyor
Ama çoğu şirket daha fazla yazılım üreterek aslında daha fazla değer üretemiyor da olabilir
His olarak orta ölçekli birçok şirket daha çok yığın değişimi ya da modernizasyon işleri yapıyor. Sürekli yeni özellik yağdırıp fiyat ya da geliri artırdıklarını pek duymuyorum
Darboğazların çoğu başka bir darboğazın yukarısında yer alıyor; gerçek “baraj” ise nadir
Son kişisel projem Wasm’dan Go’ya dönüştüren bir transpiler ve en yeni modellerin (Sonnet, Opus, Gemini kullandım; GPT’den çok daha başarılıydılar) projeyi kavrayıp birden fazla katmanda çalışabilmesi gerçekten etkileyiciydi
Transpileri yazan Go kodu (Wasm ayrıştırma, AST kurma), AST’yi
.godosyalarına serileştirip üretilen Go kodu, AST üzerinde oynayıp optimizasyon yapan Go kodu ve bunun üretilen koda etkisi, daha gelişmiş komutları uygulamak için üretilen koda aşılanan Go kodu ve bunun AST ile etkileşimi, C kodunun Wasm’a derlenip Go’ya çevrilmesi ve sonra Go’dan çağrılması, C standart kütüphanesini gerçekleştirmek için o C kodundan çağrılan Go kodu, hatta Wasm spesifikasyon testlerini uygulayan WAT/WAST dosyaları arasında gidip gelebildilerTüm bu katmanları birlikte düşünmek bana bile epey zihinsel yük bindiriyor ve birçok programcı için de zor olurdu diye düşündüğüm için etkileyici buluyorum
Ayrıca “şu kodu üretmek istiyorum, bunu yapan AST’yi oluştur” demek çoğu zaman Go kodunda parantez saymaktan çok daha kolay. Biraz LISP deneyimim olsa da yine de o yol daha kolay geliyor
Kod incelemesi ya da eleştiri memnuniyetle karşılanır. Bu tam olarak vibe coding değildi ama üretken yapay zeka yardımını çok kullandım
https://github.com/ncruces/wasm2go
Küçük bir tarayıcı oyunu olduğu için güvenlik ve kusursuzluk gereksinimleri çok düşüktü ama “bunu gerçekten çalıştırmak” ve “eğlenceli olması” beklentisi yüksekti; bu yüzden bir tür prodüksiyon kodu sayılabilir
Üretilen kodda sıfır derleme hatası vardı ve tek görevde 10 maddelik yapılacaklar listesini verince hepsini sırayla halletti
Faydalı olmak için bundan çok daha iyi olmalarına gerek yok. Zaten matematiğini araştırmacı gibi yine doğrulamanız gereken ama test verisini filtreleme, dönüştürme ve çalıştırma kodunu iyi yazamayan insanlar için şimdiden çok faydalılar
Küçük web siteleri, eğlence projeleri ve yardımcı araçlar gibi işler için de şimdiden iyiler
Aynı zamanda arka planda daha fazla hesaplama, daha iyi algoritmalar, daha fazla pekiştirmeli öğrenme gibi gelişmeler sürüyor
Farkında olmadan “AI kodlama işlerini elinden alacak” senaryosunun %95 noktasına zaten gelmiş olabiliriz. Çünkü kalan %5 aşırı önemli
Şu anda bir yerlerde bir insan sanatçının, büyük bir AI laboratuvarının eğitim verisine girecek bisiklete binen pelikan çizimi yapıyor olması muhtemel geliyor
Bu testin asıl meselesi, görüntüyü temsil eden SVG metnini üretmek ve bu daha karmaşık
Raster görselleri SVG’ye çevirip eğitim verisinde kullanmanın yolları var ama bu kimsenin zamanını iyi kullanma biçimi değil
Yalnız pelikanı özel olarak mı hedeflediler, yoksa sadece SVG’yi mi hedeflediler, bilmiyorum
Son 6 ay, insanlığın LLM’ler üzerindeki kontrolünü kaybettiği dönem gibi görünüyor
Yerel AI benimsenmesini hafifletebilecek mükemmel açık modeller çıkmasına rağmen bellek pazarının ele geçirilmesi yaşandı ve dünyanın her yanındaki şirketlere fikrî mülkiyet sızıntısı araçları hızla nüfuz etti
Geliştiriciler okuyabileceklerinden daha fazla kod üretiyor
Otonom ajanlar dikkat ekonomisini emip açık kaynağı öldürüyor, çevrimiçi toplulukları (HN dahil) bozuyor ve savaşta da kullanılıyor (hedef belirleme, propaganda vb.)
Yaygın güvenlik açıkları keşfediliyor ve büyük ölçekli tedarik zinciri saldırıları sürüyor
Artan eşitsizlik, algının parçalanması, yemyeşil metriklerle kasvetli gerçeklik bir arada
Ama ben kişisel olarak biyoteknolojide akıl almaz şeyler gördüm. Böyle bir gelecekte yaşama ihtimalimiz olduğuna inanmak zor
AlphaFold kullanılarak geliştirilen gerçek bir tedavi zaten gerçek klinik deneylerde test ediliyor ve önümüzdeki 3-5 yıl içinde kliniğe girecek bir sonraki nesil muazzam olacak
Sanırım gelecekte bugünün tıbbına, bizim bugün Orta Çağ’a baktığımız gibi bakacağız
İdeal olarak umarım bu abartı döngüsünden daha iyi pratikler öğrenmiş olarak çıkarız
“Dünyadaki şirketlere fikrî mülkiyet sızıntısı araçlarının hızla nüfuz etmesi” bana göre artı hanesine yazılır
Dikkat ekonomisiyle ilgili şeylerin ortadan kalkması da benim için tamamen “güle güle” kategorisinde
Programcı olmayanların gözünden son 6 ayın nasıl geçtiğini merak ediyorum
Başka alanlardaki insanlar ne tür işbirliği araçları ya da benzeri optimizasyonlar yaşadı?
Yakın zamanda ekibimize katılıp ders vermeye başladı ve iki haftalık bir programa dahil oldu; ilk günde, tüm ders planlarını yapay zekâya yazdırması ve sonra o planları tekrar yapay zekâya verip slayt üretmesi söylendi
Umarım bunu kararlı biçimde reddeder; yoksa kursiyerler onun deneyiminden, insani yönünden ve aktarabileceği şeylerden hiçbirini alamayacak
Eğitmen olarak her 6 ayda bir değerlendirmeden geçiyorum ve her seferinde aynı şeyi duyuyorum: “Derslerde AI’ı nasıl kullanabiliriz?”
Bunun neden arzu edilir ya da neden gerekli olduğunu açıklama ihtiyacı bile hissetmiyorlar. Saf bir trende atlama hali
İnanması zor ama meslektaşlarımın çoğu AI konusunda çok olumlu; fakat ders hazırlığı dışında ne için kullandıklarını hiç kimse söylemedi
Sadece düşünmek ya da hazırlanmak için zaman harcamamak adına kullanıyorlar; oysa işte yaptıkları tek gerçekten önemli şey bu
Bana hiç mantıklı gelmiyor
Akıllı insanlar modellerden bir miktar verim alabiliyordu ama bunun için her zaman ciddi bir iş ve çok uygun problem gerekiyordu
Elbette ödev sorularını çözebiliyorlardı ama ders veren biri olarak bu bana daha çok bir eksiklik gibi geliyordu
GPT-5.4’ten sonra (Mart 2026) ise “vay be” dedirten bir sürüm oldu. Daha önce uzmanları bile tıkayan MathOverflow seviyesindeki sorulara birden cevap vermeye başladı
Hâlâ halüsinasyonlar vardı ama mümkün olduğunda küçük örneklerle iddialarını doğrulamak için yerleşik Python yeteneğini kullanacak kadar akıllıydı
Soyut ve “felsefi” matematikten ziyade formül yoğun matematikte çok daha güçlü görünüyor
GPT-5.5, MO seviyesindeki zor bir problem için büyüleyici, epey sıradışı ve son derece öğretici, adeta kitapta yer alacak türden bir ispat verdi; şu anda bunu yazıya döküyorum
Bu biraz şans ve iyi istem yazımı da olabilir. 5.4’ten sonra niteliksel bir sıçrama gibi gelmedi ama niceliksel iyileşme de her zaman memnuniyet verici
Hâlâ uygun problem gerekiyor ama artık baştan “buna uygun değil” diye kenara atmak çok daha zor
Claude ve Gemini ikinci sınıf olarak kaldı ve hâlâ öyle. Claude’u daha çok asistanlık işlerinde kullanıyorum; bazen kolay bir ispat da buluyor ama genelde o zaman bariz bir şeyi benim kaçırmış olmam söz konusu
Ayrıca GPT, biraz daha az olmakla birlikte Claude da, matematik hatalarını bulmakta mükemmel. Şimdiye kadar istemlerimin muhtemelen %90’ını kendi yazdıklarımı düzeltmek için kullandım
Ortalama ofis çalışanı Copilot karşısında büyüleniyor. IDE içindeki Copilot’tan değil, Windows’la birlikte gelen uygulamadan bahsediyorum
Çoğunlukla materyalleri şirketin sunduğu ChatGPT/Gemini’ye kopyalayıp yapıştırıyorlar ve Facebook/Instagram’dan “iş verimliliği için en iyi 5 istem” gibi ipuçları topluyorlar
Büyük ölçekte işi otomatikleştiren ajanlar gösterdiğinizde bunu neredeyse sihir gibi algılıyorlar
Artık herkesin slayt desteleri düzenli görünüyor ve finans ekibi BI yardımına çok daha az ihtiyaç duyuyor. Oldukça etkileyici
Kişisel tarafta ise eşim ana dili olmayan ilk ve orta öğretim öğrencilerine kendi ana dilini öğretiyor; artık çocukların hepsi bu tür araçlarla okul müfredatına uygun yeni alıştırma içerikleri üretiyor
Birkaç ay öncesine kıyasla çocukların seviyesi çok daha hızlı ilerliyor
Simon’ın blogu bu kadar ünlüyken, herhangi bir AI laboratuvarının bu tür saçma görevler için modeli eğitmemiş olduğuna artık güvenle inanmak zor
Şimdi sıra elektrikli scooter süren opossumda
Bu tartışmayı okuyunca dönüm noktası meselesindeki anlaşmazlığın önemli bir kısmı, insanların neyin geliştiği konusunda birbirini ıskalamasından geliyor gibi duruyor
Benim yorumuma göre kasım civarında modelin kendi yetenekleri büyük sıçrama yapmadı; asıl gelişen şey etrafındaki harnessın çok daha kararlı hale gelmesiydi ve 2025 başındaki RLVR çalışmaları modeli bu harness içinde iyi davranacak şekilde eğitmişti
Dolayısıyla ikisi birleşince, ayrı ayrı bakıldığında dramatik görünmeyen şeyler sentez etkisiyle bir kademe sıçraması gibi hissedilmiş olabilir
Bu da bu başlıktaki deneyimlerin neden bu kadar farklı olduğunu açıklıyor. Modelle kod hakkında konuşup sonra kopyala-yapıştır yapan akıştaysanız iyileşme yumuşak gelmiştir ve bu kadar gürültüye neden şaşırdığınızı haklı olarak düşünebilirsiniz
Buna karşılık zaten ajanları 20 adımlık döngülerde çalıştırıyorsanız değişimi çok daha büyük hissetmiş olursunuz. Eskiden sorun, 12. adımdaki bir başarısızlığın 20. adıma gelindiğinde tam çöpe dönüşmesiydi; işte o kısım ciddi biçimde iyileşti
Simon’ın kısaca değinip geçtiği yerel model meselesi de aynı nedenle ilginç. Dizüstünde çalışan 20GB’lık bir modelin makul bir pelikan çizmesi tek başına sadece sevimli bir veri noktası
Dikkat çekici olan, iyi bir harness içindeki yetkin bir yerel modelin artık harness olmadan çalışan sınırdaki bir modelden sınır performansına daha yakın hale gelmesi
Gemini’den “Hyde Park’ta tek tekerli bisiklet süren bir pelikan” videosu istedim ve sonuç beni gerçekten şaşırttı
https://gemini.google.com/share/55e250c99693
Bu noktada, rakip AI laboratuvarları artık iyi bilinen bu “test”i neden eğitmesin diye düşünmeden edemiyorum
Pelikanın ağırlık merkezi açıkça tekerleğin arkasında kalıyor. Tekerleğin üstünde ya da çok az önünde olması gerekirdi
https://grok.com/imagine/post/8d1eab88-737f-4d46-ba92-9b6502...
Pelikanın pedalları çevirmesini görüntü üretiminden çok video üretiminde daha iyi yapmaları ilginç
Claude’dan peyzaj fotoğrafına malç eklemesini istedim, ortaya sanki MS Paint’in turuncu sprey aracıyla boyanmış gibi bir şey çıktı
Nano Banana ise gerçeğe oldukça yakın bir sonuç verdi
“PyCon US 2026’da verilen 5 dakikalık lightning talk için açıklamalı slaytlar hazırladım” denmiş; bunun video ya da ses kaydı var mı diye merak ediyorum