LLM'lerin son 6 ayına 5 dakikada bakış

(simonwillison.net)

9 puan yazan GN⁺ 2026-05-20 | 1 yorum | WhatsApp'ta paylaş

Kasım 2025, LLM’lerdeki son değişimlerin referans noktası haline geldi; kodlama ajanlarının pratik kullanıma ulaşması ve dizüstünde çalışan modellerin yükselişi bunun merkezindeydi
Claude Sonnet 4.5’in ardından GPT-5.1, Gemini 3 ve Claude Opus 4.5 hızla yarışa girdi; Opus 4.5 birkaç ay boyunca lider gibi göründü
OpenAI ve Anthropic’in doğrulanabilir ödüllerden pekiştirmeli öğrenme yaklaşımı, Codex ve Claude Code gibi harness’lerde kod kalitesindeki artışla kendini gösterdi
Tatil dönemi deneyleri micro-javascript gibi ilginç sonuçlar doğurdu, ancak hatalar, hız ve güvenlik nedeniyle gerçek ihtiyaç sınırlı kaldı
Gemma 4, GLM-5.1 ve Qwen3.6-35B-A3B gibi açık ağırlıklı modeller, frontier modellere göre daha zayıf olsalar da beklentileri ciddi biçimde aşmaya başladı

6 ayı belirleyen iki akım

Kasım 2025’teki dönüm noktası, son 6 aydaki LLM değişimini görmek için iyi bir referans; özellikle de kodlama alanında önemli bir aydı
Son 6 ayın temel değişimi iki başlıkta özetlenebilir
- Kodlama ajanları, gerçek günlük işlerde kullanılabilecek kadar iyi hale geldi
- Dizüstünde çalışabilen modeller, frontier modellerden daha zayıf olsalar da beklentileri ciddi biçimde aşmaya başladı
Model karşılaştırmalarında bisiklete binen pelikan SVG üretimi testi kullanılıyor
- Bunun arka planında, pelikan çizmenin zor olması, bisiklet çizmenin de zor olması, pelikanların bisiklete binememesi ve herhangi bir yapay zeka laboratuvarının modeli özellikle böyle bir görev için eğitmiş olma ihtimalinin düşük olması yatıyor

Kasım ayındaki frontier model yarışı

Kasım başında yaygın biçimde “en iyi” kabul edilen model, 29 Eylül’de duyurulan Claude Sonnet 4.5 idi
Sonrasında “en iyi” model unvanı üç büyük sağlayıcı arasında hızla el değiştirdi
Gemini 3, bu grup içinde en iyi pelikan çizimini yaptı, ancak yalnızca pelikan testiyle bir modeli bütünüyle değerlendirmek mümkün değil
Claude Opus 4.5, sonraki birkaç ay boyunca önde görünen modeldi

Kodlama ajanlarında kalite eşiğinin aşılması

Kasım ayındaki asıl değişim, kodlama ajanlarının kalite artışıydı
OpenAI ve Anthropic, 2025’in büyük bölümünü modellerin yazdığı kodun kalitesini artırmak için doğrulanabilir ödüllerden pekiştirmeli öğrenmeye(Reinforcement Learning from Verifiable Rewards) ayırdı
Bu iyileşme, özellikle Codex ve Claude Code gibi ajan harness’leriyle birleştiğinde belirgin hale geldi
Kasım ayında kodlama ajanları “bazen çalışıyor” seviyesinden “çoğunlukla çalışıyor” seviyesine geçti
Kullanıcının zamanının çoğunu aptalca hataları düzeltmeye harcamadan gerçek işleri devredebileceği günlük araçlar düzeyine ulaştılar

Tatil dönemi deneyleri ve aşırı heyecan

Aralık’tan Ocak’a kadar birçok kullanıcı tatil dönemini, yeni modellerin ve kodlama ajanlarının neler yapabildiğini denemek için kullandı
Modeller ve ajanlar pek çok işi başardı; bazı kullanıcılar iddialı projeleri hızla üretmeye başladı
micro-javascript, MicroQuickJS’in gevşek bir Python portu olan bir JavaScript uygulamasıydı
Tarayıcı playground’u, JavaScript kodunun micro-javascript kütüphanesinde çalıştığı; bu Python kodunun ise Pyodide içinde, WebAssembly içinde, JavaScript içinde, tarayıcı içinde çalıştığı bir yapıya sahipti
Ortaya çıkan şey ilginçti, ancak hatalı, yavaş ve güvenli olmayan, yarım kalmış bir JavaScript’in Python implementasyonuna gerçekten ihtiyaç duyan kimse yoktu; aynı dönemde yapılan diğer projeler de sessizce emekliye ayrıldı

OpenClaw ve kişisel yapay zeka asistanı çılgınlığı

İlk commit’in Kasım sonunda geldiği sırada pek bilinmeyen “Warelay” deposu, sonrasında hızla dikkat çekti
Aralık ile Ocak arasında birkaç kez isim değiştirdikten sonra, Şubat ayında nihai adı OpenClaw ile büyük ilgi gördü
OpenClaw, bir “kişisel yapay zeka asistanı” ve NanoClaw ile ZeroClaw gibi projeleri kapsayan genel bir ad olarak Claws ifadesi ortaya çıktı
Silikon Vadisi çevresinde insanlar Claw çalıştırmak için Mac Mini satın almaya başlayınca Mac Mini stokları tükenmeye başladı
Drew Breunig, Claw’ı yeni bir dijital evcil hayvana benzetti ve şaka yollu Mac Mini’nin Claw için mükemmel bir akvaryum olduğunu söyledi
Claws için yapılan benzetmelerden biri, 2004 yapımı Spider-Man 2 filminde Alfred Molina’nın canlandırdığı Doc Ock oldu
- Onun kolları yapay zeka ile çalışıyordu ve baskılama çipi zarar görmediği sürece güvenliydi; ama çip bozulduktan sonra kötüleşip onun kontrolünü ele geçirdi

Gemini 3.1 Pro ve pelikan testinin genişlemesi

Şubat ayında Gemini 3.1 Pro duyuruldu ve bisiklete binen pelikanı son derece iyi çizdi
Sonuçta sepette balıklar bile vardı
Google’dan Jeff Dean, bisiklete binen animasyonlu bir pelikan videosu paylaştı
Aynı videoda penny-farthing süren bir kurbağa, küçük bir araba kullanan zürafa, paten kayan devekuşu, kickflip yapan bir kaplumbağa ve stretch limuzin süren bir dachshund da vardı
Bu sonuç, yapay zeka laboratuvarlarının pelikan testi gibi tuhaf görevlere de ilgi göstermiş olabileceği fikrini şaka yollu akla getirdi

Nisan ayındaki açık ağırlıklı modeller

Google, Gemma 4 model serisini duyurdu
Gemma 4, ABD merkezli bir şirketten gördüğü açık ağırlıklı modeller içinde en yeteneklisi olarak değerlendirildi
Çinli yapay zeka laboratuvarı GLM, GLM-5.1 modelini duyurdu
- GLM-5.1, 1.5TB boyutunda bir açık ağırlıklı model
- Çalıştıracak donanıma sahipseniz son derece etkili bir model
GLM-5.1, bisiklete binen pelikanı oldukça ustaca çizdi, ancak animasyon denemesinde bisiklet yukarı sıçrayıp bozuldu
Charles’ın Bluesky’da önerdiği “elektrikli scooter süren North Virginia opossumu” görevinde ise diğer modellerin yaklaşamadığı bir sonuç üretti
- Sonuçta “Cruising the commonwealth since dusk” ifadesi yer aldı
- Çıktı animasyon olarak da sunuldu

Dizüstünde çalışan modellerin beklentileri aşması

Nisan ayının dikkat çeken bir diğer Çinli açık ağırlıklı modeli Qwen’den geldi
Qwen3.6-35B-A3B, dizüstünde Claude Opus 4.7’den daha iyi bir pelikan çizdi
Bu model 20.9GB açık ağırlıklı bir model ve dizüstünde çalıştırılabiliyor
Bu sonuç aynı zamanda “bisiklete binen pelikan”ın faydalı bir benchmark olarak sınırlarını çoktan aştığını da gösterdi
Dizüstünde çalışabilen modeller, frontier modellere göre çok daha zayıf olsalar da son 6 ayda beklentilerin çok üzerinde sonuçlar üretmeye başladı

1 yorum

GN⁺ 2026-05-20

Hacker News yorumları

Herkes bu pelikan bisikleti testinin saçma bir metrik olduğunu söylüyor ama bunun aslında yaklaşık 3 yıl önce Microsoft’un erken dönem GPT raporu olan "Sparks of Artificial General Intelligence: Early experiments with GPT-4" içinde tanıtıldığını [1] pek hatırlamıyor gibi görünüyor
Ardından bunu tanıtım hesaplarından oluşan bir ağ hemen yaydı ve yapay zeka abartısı yapanların modeli “test” ederken her seferinde kullandığı bir şeye dönüştü
%100 pazarlama, %0 bilim
[1] https://arxiv.org/pdf/2303.12712
- Merak edenler için ekleyeyim, Simon’ın bunu ilk kez kamuya açık biçimde kullandığı tarih muhtemelen 25 Ekim 2024[0]
  Makalede “bisiklete binen pelikan” isteminin özel olarak test edildiği bir örneği[1] bilmiyorum ama GPT makalesinde çeşitli SVG ve tikz testleri vardı ve gerçek görüntü oldukça keyfiydi
  Tek bir görsele aşırı optimize olmak istenen bir şey değil ama eğitim az çok düzgün yapıldıysa bisiklete binen bir pelikan o kadar da zor olmamalı ve [0] içindeki birkaç sayfaya bakarsanız epey iyi örnekler de var
  [0] https://simonwillison.net/tags/pelican-riding-a-bicycle/?pag...
  [1] Simon’ın ünü nedeniyle bunun kesin bir yerlerde olduğunu düşünüyorum
- Üretken yapay zeka çıktığından beri benim kişisel gayriresmî testim “nehir üzerinde bisiklet süren yaşlı bir adam resmi”ydi
  Az önce ChatGPT’nin varsayılan modeliyle (5.5) denedim; yaşlı adam eski bir bisiklet sürüyordu ve bisiklet gevşek bir ipin üstündeydi, o ip de nehrin üzerinden geçiyordu, arka planda da ortaçağ kasabası vardı
  Asıl nokta, istemde ince bir çift anlamlılık olması. “Yaşlı adam nehri nasıl geçiyor?” kısmında çoğu insan muhtemelen nehrin üzerinden geçen sıradan bir köprüyü hemen hayal eder ve böyle bir köprünün olduğu kadar gelişmiş bir bölgedeki nehir manzarasını düşünür
  Bu yüzden bence bu modeller, koşulları kabaca karşılayan şeyleri bulma ya da üretme konusunda gelişiyor ama insanların doğal biçimde çıkaracağı sağduyulu varsayımları hâlâ kaçırdıkları yerler var
“Dönüm noktası” gerçekten yaşanmış bir şey mi yoksa pazarlama mı, merak ediyorum
Modellerin bir miktar daha iyi olduğu doğru ama bugün bile en yeni modellerle (Codex + gpt5.5, gpt5.3-codex kombinasyonu) bir oyunu vibe coding ile yapmaya çalışınca epey zorlanıyorlar
İskeleti kesinlikle kurup çalıştırıyorlar ama cilalı bir uygulamadan hâlâ uzaktalar
- Opus 4.5’ten önce çok fazla elinden tutmak ve kendim de çok kod yazmak zorundaydım, ama o günden sonra neredeyse hiç kod yazmadığımı çok net hatırlıyorum
  Enigma şifre makinesinin nasıl çalıştığını öğrenmek için kendim bir şeyler yazdım ama o da öğrenme amaçlıydı
  İş anlamında bakarsak kasımdan beri kod yazmayı bırakmış durumdayım
- Paradoksal biçimde, çekirdek yeteneklerde marjinal fayda düşmeye başlasa bile birden fazla dönüm noktası yaşanabilir diye düşünüyorum
  Çünkü belirli bir kullanım için “yeterince iyi” eşiği aşıldığında yetenekler bir anda açılıyor
  Eski çivi tabancaları ağır ve kalın güç kabloları gerektirirdi, ayrıca çok pahalıydı
  Hafifleyip ucuzladıklarında ve batarya paketi kullanmaya başladıklarında bir noktada çatı ustalarının iş akışına doğal şekilde oturdular ve yapabildikleri iş miktarını dramatik biçimde artırdılar
  Ondan sonraki sınır iyileştirmeleri aynı türden bir “kilit açma” yaratmayabilir; çünkü eşik zaten aşılmıştır
- Son zamanlarda Codex 5.5 ile Claude Code Opus 4.7’yi birlikte kullanarak oldukça karmaşık şeyleri bile “vibe” ederek yaptım
  Kritik nokta başta genel tasarım dokümanına ciddi zaman ayırmak ve bunu somut, kısıtlı adımlara bölmekti
  Dokümanı iki model arasında gidip gelecek şekilde, ikisi de tatmin olana kadar rafine ettim
  Her adım için bir uygulama planı yaptım ve bittiğinde ne teslim edildiğini ve nelerin keşfedildiğini özetleyen bir belge bıraktım. Bu da sonraki adımın girdisi oldu
  Dokümanları ve gerçek işi kontrol ettim, testlere baktım, bazı kısımları daha yakından inceledim. Kod yapısını beğenip beğenmediğime de kısmen baktım
  Genelde kod yazdırmak için Claude’u, tasarım ve adım adım kod incelemesi için Codex’i kullandım; her adımın sonunda da ikisine birden test kapsamını kontrol ettirdim
  Bu şekilde tek satır kod yazmadan araçlar ve kütüphaneler geliştirdim ve gerçekten oldukça faydalı oldu
  Süreç asenkron yürüdüğü için modeller yavaş yavaş çalışırken ben başka işler yapabiliyorum
  Yine de bunun evrensel olduğunu düşünmüyorum. Kolay test edilebilen, hedefin net anlaşıldığı ama tam yöntemin baştan belirlenmediği işlerde etkileyiciydi
- Başlangıç çizgisini geçmene yardım ediyor ama koda bakınca tekrarlanan kod, birbirine girmiş sorumluluklar, kötü yapı, token tüketen 10 bin satırlık dosyalar gibi korkunç şeyler görüyorsun
  Web siteleri ve sosyal ağlardan metin/görsel karışımı düzensiz etkinlik verisi çekmek için LLM kullanıyorum; makul maliyetle %100 tutarlı sonuç almak için işi çok küçük parçalara bölüp hata alanını ciddi biçimde daraltmaktan başka çare bulamadım
  Şu anda orta karar karmaşık işlerde Codex/Claude kullanıcıyı gayet isteyerek pahalı çıkmaz sokaklara kodlayıp sokabiliyor
- 2025 Kasımındaki Opus 4.5 gerçekten, hiç alay etmeden söylüyorum, bir dönüm noktasıydı ve mevcut çılgınlığın tek nedeni bence buydu
  GPT 5.5, GPT 5.4’e göre ciddi biçimde daha iyi ama ben buna dönüm noktası demezdim
“Kodlama ajanları gerçekten çok gelişti” denince, 2025 Kasım’daki sözde “dönüm noktası” sonrasında bile bunun gerçekten kimin için çok geliştiğini merak ediyorum
Gözlemlediğim kadarıyla araç çağrıları ve büyük kod tabanları hakkında soru-cevap konusunda, özellikle aranacak desenin belirsiz olduğu sorularda daha iyiler ve bu kullanım için çok faydalılar
Ama ne kadar çok yönlendirme ve gözetim eklerseniz ekleyin, prodüksiyon kodu üretimi açısından hâlâ hiç o seviyede değiller; kişisel deneyimime göre yanına bile yaklaşmış değil
Pazarlama abartısı içinde bunu 1 ve 0 gibi konuşmayı bırakmamız gerekiyor. Ajan yetenekleri sürekli bir spektrum ve üzerinde çalıştığınız kod tabanının karmaşıklığına çok bağlı
Bence herkes gündelik işinde bu araçları daha iyi nasıl kullanacağını hâlâ çözmeye çalışıyor
Ama bu, mevcut anlatıyla çelişiyor. Çünkü o anlatı işlerimizi her zaman aynı, kolay otomatikleştirilebilir şeylermiş gibi dümdüzleştiriyor; oysa gerçek öyle değil
Tartışmanın bu kadar kutuplaşmasının nedeni de bence bu. Ortak bir deneyim yok
- Kutuplaşma, farklı insanların bu araçları kullanırken karşılaştığı kodlama deneyimi ve çıktı kalitesinin çok değişmesinden kaynaklanıyor
  Örneğin benim deneyimim tam tersiydi ve Claude ile çok yüksek kaliteli işler ürettim (https://github.com/kstenerud/yoloai)
  Kullandığım teknolojilerdeki hata ve tuhaflıklarla uğraşırken, ajan uygulama aşamasında sürekli tökezlememek için bunları tespit edip listelemekte çok yardımcı oldu: https://github.com/kstenerud/yoloai/blob/main/docs/dev/backe...
  Ajanlar sürekli daha iyi oluyor. Sadece son bir ayda bile araştırma, tasarım, mimari ve planlama belgeleri üretirken sorunları öngörme ve sonuçlarını doğru çıkarma becerileri epey etkileyiciydi
  Kodlama aşamasına gelince işin büyük kısmı mekanik ve Sonnet’e devretsen bile kusur oranı çok düşük
- En yeni modellerin, yönlendirme ve gözetimle bile prodüksiyon kodu üretecek kadar iyi olmadığını düşünmene şaşırdım
  Benim deneyimimde Claude Code, özellikle Opus 4.6, bu işte harika. En azından JS, TS, Elixir ve Ruby için böyle
  Elbette gözetim gerekiyor; ama zihnimdeki model “junior geliştirici”den çok bir dış iskelet gibi. Ve his olarak çoğu işte hızımı rahatça 10 kat artıran çok güçlü bir dış iskelet bu
  Özellikle --dangerously-skip-permissions kullanmıyorum ve Claude Code’un otomatik modunu da açmıyorum. Yazılan her satırı hafifçe gözden geçirip süreci sıkı yönetiyorum, bu yüzden eşzamanlı üretim oturumlarım genelde 2’yi geçmiyor
  Hayal kırıklığının çoğunun, insanların bunu tamamen delege etmeye çalışıp raydan çıkmayacağına güvenmek istemesinden doğduğundan şüpheleniyorum. Benim için henüz o güveni kazanmadı ve şimdilik buna gerek de olmadı
  Ama çoğunlukla testleriyle birlikte 20 bin ila 30 bin satırlık küçük ve orta ölçekli kod tabanlarında çalışıyorum. Belki de olumlu deneyimimin nedeni budur
- Kodlamadaki iyilik basitçe eşit dağılmıyor
  Gerçekte (a) insanların yapay zekâyla çalışma biçimleri sayısız küçük ada gibi birbirinden çok farklı ve (b) darboğazlar geliştiriciye ve kod tabanına/göreve göre inanılmaz değişiyor
  Ayrıca çağımızda değişim = ilerleme = üretkenlik gibi içkin bir önyargı da var bence
  1990-2000 döneminin “ağ bilişimi devrimi”ne bakarsanız, bilgisayarlar her masaya ve cebe girdi ve idari işler için çok güçlü oldular
  Ama nihai sonuç “değişim”di. Mektuptan çok daha fazla e-posta gönderir olduk, çok daha fazla iletişim kurar olduk; sekreterler ortadan kalktı ama “idari iş”in kendisi arttı
  Üniversite fakültelerinde genelde daha çok idari personel var ve şirketler daha fazla muhasebeci, İK uzmanı ve proje yöneticisi istihdam ediyor
  Belki de idari işler baştan beri gerçek darboğaz değildi
  Kod da birçok açıdan böyle. Herkesin bir yol haritası ve istek listesi var; bu yüzden “kod üretme kapasitesi” darboğaz gibi görünüyor
  Ama çoğu şirket daha fazla yazılım üreterek aslında daha fazla değer üretemiyor da olabilir
  His olarak orta ölçekli birçok şirket daha çok yığın değişimi ya da modernizasyon işleri yapıyor. Sürekli yeni özellik yağdırıp fiyat ya da geliri artırdıklarını pek duymuyorum
  Darboğazların çoğu başka bir darboğazın yukarısında yer alıyor; gerçek “baraj” ise nadir
- Bir dönüm noktası oldu mu bilmiyorum ama son bir yılda otomatik tamamlamanın ötesindeki işler için kesinlikle daha kullanışlı hale geldiler
  Son kişisel projem Wasm’dan Go’ya dönüştüren bir transpiler ve en yeni modellerin (Sonnet, Opus, Gemini kullandım; GPT’den çok daha başarılıydılar) projeyi kavrayıp birden fazla katmanda çalışabilmesi gerçekten etkileyiciydi
  Transpileri yazan Go kodu (Wasm ayrıştırma, AST kurma), AST’yi .go dosyalarına serileştirip üretilen Go kodu, AST üzerinde oynayıp optimizasyon yapan Go kodu ve bunun üretilen koda etkisi, daha gelişmiş komutları uygulamak için üretilen koda aşılanan Go kodu ve bunun AST ile etkileşimi, C kodunun Wasm’a derlenip Go’ya çevrilmesi ve sonra Go’dan çağrılması, C standart kütüphanesini gerçekleştirmek için o C kodundan çağrılan Go kodu, hatta Wasm spesifikasyon testlerini uygulayan WAT/WAST dosyaları arasında gidip gelebildiler
  Tüm bu katmanları birlikte düşünmek bana bile epey zihinsel yük bindiriyor ve birçok programcı için de zor olurdu diye düşündüğüm için etkileyici buluyorum
  Ayrıca “şu kodu üretmek istiyorum, bunu yapan AST’yi oluştur” demek çoğu zaman Go kodunda parantez saymaktan çok daha kolay. Biraz LISP deneyimim olsa da yine de o yol daha kolay geliyor
  Kod incelemesi ya da eleştiri memnuniyetle karşılanır. Bu tam olarak vibe coding değildi ama üretken yapay zeka yardımını çok kullandım
  https://github.com/ncruces/wasm2go
- Dün Anthropic’in standart 20 dolarlık abonelik limitleri sayesinde gün boyu sınıra takılmadan oyalanabildim ve gerçekten çok eğlenceliydi
  Küçük bir tarayıcı oyunu olduğu için güvenlik ve kusursuzluk gereksinimleri çok düşüktü ama “bunu gerçekten çalıştırmak” ve “eğlenceli olması” beklentisi yüksekti; bu yüzden bir tür prodüksiyon kodu sayılabilir
  Üretilen kodda sıfır derleme hatası vardı ve tek görevde 10 maddelik yapılacaklar listesini verince hepsini sırayla halletti
  Faydalı olmak için bundan çok daha iyi olmalarına gerek yok. Zaten matematiğini araştırmacı gibi yine doğrulamanız gereken ama test verisini filtreleme, dönüştürme ve çalıştırma kodunu iyi yazamayan insanlar için şimdiden çok faydalılar
  Küçük web siteleri, eğlence projeleri ve yardımcı araçlar gibi işler için de şimdiden iyiler
  Aynı zamanda arka planda daha fazla hesaplama, daha iyi algoritmalar, daha fazla pekiştirmeli öğrenme gibi gelişmeler sürüyor
  Farkında olmadan “AI kodlama işlerini elinden alacak” senaryosunun %95 noktasına zaten gelmiş olabiliriz. Çünkü kalan %5 aşırı önemli
Şu anda bir yerlerde bir insan sanatçının, büyük bir AI laboratuvarının eğitim verisine girecek bisiklete binen pelikan çizimi yapıyor olması muhtemel geliyor
- Modern görüntü üretim modellerinin hepsi bisiklet üzerindeki bir pelikanı kolayca üretebilir
  Bu testin asıl meselesi, görüntüyü temsil eden SVG metnini üretmek ve bu daha karmaşık
  Raster görselleri SVG’ye çevirip eğitim verisinde kullanmanın yolları var ama bu kimsenin zamanını iyi kullanma biçimi değil
- Gemini’de pelikan kalitesinin tek bir iterasyonda bu kadar büyük sıçrama göstermesi ve diğer benchmark’ların oldukça yatay kalması nedeniyle bunda doğruluk payı olabilir
  Yalnız pelikanı özel olarak mı hedeflediler, yoksa sadece SVG’yi mi hedeflediler, bilmiyorum
Son 6 ay, insanlığın LLM’ler üzerindeki kontrolünü kaybettiği dönem gibi görünüyor
Yerel AI benimsenmesini hafifletebilecek mükemmel açık modeller çıkmasına rağmen bellek pazarının ele geçirilmesi yaşandı ve dünyanın her yanındaki şirketlere fikrî mülkiyet sızıntısı araçları hızla nüfuz etti
Geliştiriciler okuyabileceklerinden daha fazla kod üretiyor
Otonom ajanlar dikkat ekonomisini emip açık kaynağı öldürüyor, çevrimiçi toplulukları (HN dahil) bozuyor ve savaşta da kullanılıyor (hedef belirleme, propaganda vb.)
Yaygın güvenlik açıkları keşfediliyor ve büyük ölçekli tedarik zinciri saldırıları sürüyor
Artan eşitsizlik, algının parçalanması, yemyeşil metriklerle kasvetli gerçeklik bir arada
- Sadece kötü haberlere bakarsan, özellikle de günümüz kitlesel medyasındaki gibi daha çok satan haberlere, ortaya böyle bir tablo çıkabilir
  Ama ben kişisel olarak biyoteknolojide akıl almaz şeyler gördüm. Böyle bir gelecekte yaşama ihtimalimiz olduğuna inanmak zor
  AlphaFold kullanılarak geliştirilen gerçek bir tedavi zaten gerçek klinik deneylerde test ediliyor ve önümüzdeki 3-5 yıl içinde kliniğe girecek bir sonraki nesil muazzam olacak
  Sanırım gelecekte bugünün tıbbına, bizim bugün Orta Çağ’a baktığımız gibi bakacağız
- Bence AI abartısı, her zaman var olan yazılım mühendisliği çatlaklarını daha görünür hale getirdi
  İdeal olarak umarım bu abartı döngüsünden daha iyi pratikler öğrenmiş olarak çıkarız
- Yaygın güvenlik açıklarının bulunması iyi bir şey
- Metal Gear Solid 2, 2025’e kadar tuhaf ve komik bir yapımdı
- “Bellek pazarının ele geçirilmesi” derken, bir dakika, o da ne?
  “Dünyadaki şirketlere fikrî mülkiyet sızıntısı araçlarının hızla nüfuz etmesi” bana göre artı hanesine yazılır
  Dikkat ekonomisiyle ilgili şeylerin ortadan kalkması da benim için tamamen “güle güle” kategorisinde
Programcı olmayanların gözünden son 6 ayın nasıl geçtiğini merak ediyorum
Başka alanlardaki insanlar ne tür işbirliği araçları ya da benzeri optimizasyonlar yaşadı?
- Çıraklık programı yürüten bir eğitmenim; yeni patronum sektörde yaklaşık 20 yıl geçirmiş ve şirkette en çok saygı duyulan insanlardan biri
  Yakın zamanda ekibimize katılıp ders vermeye başladı ve iki haftalık bir programa dahil oldu; ilk günde, tüm ders planlarını yapay zekâya yazdırması ve sonra o planları tekrar yapay zekâya verip slayt üretmesi söylendi
  Umarım bunu kararlı biçimde reddeder; yoksa kursiyerler onun deneyiminden, insani yönünden ve aktarabileceği şeylerden hiçbirini alamayacak
  Eğitmen olarak her 6 ayda bir değerlendirmeden geçiyorum ve her seferinde aynı şeyi duyuyorum: “Derslerde AI’ı nasıl kullanabiliriz?”
  Bunun neden arzu edilir ya da neden gerekli olduğunu açıklama ihtiyacı bile hissetmiyorlar. Saf bir trende atlama hali
  İnanması zor ama meslektaşlarımın çoğu AI konusunda çok olumlu; fakat ders hazırlığı dışında ne için kullandıklarını hiç kimse söylemedi
  Sadece düşünmek ya da hazırlanmak için zaman harcamamak adına kullanıyorlar; oysa işte yaptıkları tek gerçekten önemli şey bu
  Bana hiç mantıklı gelmiyor
- Saf matematikte GPT-5.4 öncesinde kullanım alanı çok sınırlıydı
  Akıllı insanlar modellerden bir miktar verim alabiliyordu ama bunun için her zaman ciddi bir iş ve çok uygun problem gerekiyordu
  Elbette ödev sorularını çözebiliyorlardı ama ders veren biri olarak bu bana daha çok bir eksiklik gibi geliyordu
  GPT-5.4’ten sonra (Mart 2026) ise “vay be” dedirten bir sürüm oldu. Daha önce uzmanları bile tıkayan MathOverflow seviyesindeki sorulara birden cevap vermeye başladı
  Hâlâ halüsinasyonlar vardı ama mümkün olduğunda küçük örneklerle iddialarını doğrulamak için yerleşik Python yeteneğini kullanacak kadar akıllıydı
  Soyut ve “felsefi” matematikten ziyade formül yoğun matematikte çok daha güçlü görünüyor
  GPT-5.5, MO seviyesindeki zor bir problem için büyüleyici, epey sıradışı ve son derece öğretici, adeta kitapta yer alacak türden bir ispat verdi; şu anda bunu yazıya döküyorum
  Bu biraz şans ve iyi istem yazımı da olabilir. 5.4’ten sonra niteliksel bir sıçrama gibi gelmedi ama niceliksel iyileşme de her zaman memnuniyet verici
  Hâlâ uygun problem gerekiyor ama artık baştan “buna uygun değil” diye kenara atmak çok daha zor
  Claude ve Gemini ikinci sınıf olarak kaldı ve hâlâ öyle. Claude’u daha çok asistanlık işlerinde kullanıyorum; bazen kolay bir ispat da buluyor ama genelde o zaman bariz bir şeyi benim kaçırmış olmam söz konusu
  Ayrıca GPT, biraz daha az olmakla birlikte Claude da, matematik hatalarını bulmakta mükemmel. Şimdiye kadar istemlerimin muhtemelen %90’ını kendi yazdıklarımı düzeltmek için kullandım
- Şirketlere AI dağıtan bir firmada çalışıyorum
  Ortalama ofis çalışanı Copilot karşısında büyüleniyor. IDE içindeki Copilot’tan değil, Windows’la birlikte gelen uygulamadan bahsediyorum
  Çoğunlukla materyalleri şirketin sunduğu ChatGPT/Gemini’ye kopyalayıp yapıştırıyorlar ve Facebook/Instagram’dan “iş verimliliği için en iyi 5 istem” gibi ipuçları topluyorlar
  Büyük ölçekte işi otomatikleştiren ajanlar gösterdiğinizde bunu neredeyse sihir gibi algılıyorlar
- Etrafımdaki teknik olmayan insanlar için Office içinde Claude dönüm noktası oldu
  Artık herkesin slayt desteleri düzenli görünüyor ve finans ekibi BI yardımına çok daha az ihtiyaç duyuyor. Oldukça etkileyici
- İş dünyasında işbirliği araçlarıyla e-postaları gözden geçirtiyor, arşivleme yöntemleri önerdiriyor, dosya ve klasörleri yönettiriyor, her gün intranette ilginç ve ilgili içerikleri taratıyoruz
  Kişisel tarafta ise eşim ana dili olmayan ilk ve orta öğretim öğrencilerine kendi ana dilini öğretiyor; artık çocukların hepsi bu tür araçlarla okul müfredatına uygun yeni alıştırma içerikleri üretiyor
  Birkaç ay öncesine kıyasla çocukların seviyesi çok daha hızlı ilerliyor
Simon’ın blogu bu kadar ünlüyken, herhangi bir AI laboratuvarının bu tür saçma görevler için modeli eğitmemiş olduğuna artık güvenle inanmak zor
- Yazıda da “AI laboratuvarları sonunda buna dikkat etmiş olabilir”, “bisiklete binen pelikanın faydalı bir benchmark olarak sınırlarını açıkça aştığını gösteriyor” deniyor
- Simon yazının ilerleyen kısmında, Jeff Dean’in bisiklete binen pelikan görevine atıfta bulunan yazısını ve mevcut modellerin bunu ne kadar iyi yaptığını düşününce bunun artık iyi bir benchmark olmadığını söylüyor
  Şimdi sıra elektrikli scooter süren opossumda
- Bu kısım sunumda muhtemelen daha iyi işlemiştir. Sonradan gelecek şaka için bir hazırlıktı
- Fiilen bir benchmark oldu. Bazı arkadaşlar modelleri, “strawberry” kelimesindeki R sayısını saymaları için özel olarak eğitiyor
Bu tartışmayı okuyunca dönüm noktası meselesindeki anlaşmazlığın önemli bir kısmı, insanların neyin geliştiği konusunda birbirini ıskalamasından geliyor gibi duruyor
Benim yorumuma göre kasım civarında modelin kendi yetenekleri büyük sıçrama yapmadı; asıl gelişen şey etrafındaki harnessın çok daha kararlı hale gelmesiydi ve 2025 başındaki RLVR çalışmaları modeli bu harness içinde iyi davranacak şekilde eğitmişti
Dolayısıyla ikisi birleşince, ayrı ayrı bakıldığında dramatik görünmeyen şeyler sentez etkisiyle bir kademe sıçraması gibi hissedilmiş olabilir
Bu da bu başlıktaki deneyimlerin neden bu kadar farklı olduğunu açıklıyor. Modelle kod hakkında konuşup sonra kopyala-yapıştır yapan akıştaysanız iyileşme yumuşak gelmiştir ve bu kadar gürültüye neden şaşırdığınızı haklı olarak düşünebilirsiniz
Buna karşılık zaten ajanları 20 adımlık döngülerde çalıştırıyorsanız değişimi çok daha büyük hissetmiş olursunuz. Eskiden sorun, 12. adımdaki bir başarısızlığın 20. adıma gelindiğinde tam çöpe dönüşmesiydi; işte o kısım ciddi biçimde iyileşti
Simon’ın kısaca değinip geçtiği yerel model meselesi de aynı nedenle ilginç. Dizüstünde çalışan 20GB’lık bir modelin makul bir pelikan çizmesi tek başına sadece sevimli bir veri noktası
Dikkat çekici olan, iyi bir harness içindeki yetkin bir yerel modelin artık harness olmadan çalışan sınırdaki bir modelden sınır performansına daha yakın hale gelmesi
Gemini’den “Hyde Park’ta tek tekerli bisiklet süren bir pelikan” videosu istedim ve sonuç beni gerçekten şaşırttı
https://gemini.google.com/share/55e250c99693
- Asıl yazarın açıklamasına göre bu testin kullanılma nedeni pelikanın çizilmesinin zor olması, bisikletin çizilmesinin zor olması, pelikanların bisiklet sürememesi ve hiçbir AI laboratuvarının modeli böyle saçma bir görev için eğitmesinin muhtemel olmaması
  Bu noktada, rakip AI laboratuvarları artık iyi bilinen bu “test”i neden eğitmesin diye düşünmeden edemiyorum
- Grafik olarak kusursuz ama içerik olarak mantıksız
  Pelikanın ağırlık merkezi açıkça tekerleğin arkasında kalıyor. Tekerleğin üstünde ya da çok az önünde olması gerekirdi
- Grok da şaşırtıcıydı
  https://grok.com/imagine/post/8d1eab88-737f-4d46-ba92-9b6502...
  Pelikanın pedalları çevirmesini görüntü üretiminden çok video üretiminde daha iyi yapmaları ilginç
- Google/Gemini’nin görsel-işitsel yetenekleri oldukça etkileyici
  Claude’dan peyzaj fotoğrafına malç eklemesini istedim, ortaya sanki MS Paint’in turuncu sprey aracıyla boyanmış gibi bir şey çıktı
  Nano Banana ise gerçeğe oldukça yakın bir sonuç verdi
- Gerçekten etkileyici ve film, animasyon, modelleme tarafındaki yaratıcılar için biraz endişe verici
“PyCon US 2026’da verilen 5 dakikalık lightning talk için açıklamalı slaytlar hazırladım” denmiş; bunun video ya da ses kaydı var mı diye merak ediyorum

LLM'lerin son 6 ayına 5 dakikada bakış

6 ayı belirleyen iki akım

Kasım ayındaki frontier model yarışı

Kodlama ajanlarında kalite eşiğinin aşılması

Tatil dönemi deneyleri ve aşırı heyecan

OpenClaw ve kişisel yapay zeka asistanı çılgınlığı

Gemini 3.1 Pro ve pelikan testinin genişlemesi

Nisan ayındaki açık ağırlıklı modeller

Dizüstünde çalışan modellerin beklentileri aşması

İlgili okumalar

1 yorum

Hacker News yorumları