- 2025'te doğrulanabilir ödüllerden pekiştirmeli öğrenme (RLVR), LLM eğitiminin yeni temel aşaması olarak öne çıktı ve mevcut ön eğitim-SFT-RLHF hattına eklendi
- LLM'ler, matematik ve kod bulmacaları gibi doğrulanabilir ortamlarda kendi akıl yürütme stratejilerini geliştirerek, insana "düşünme" gibi görünen problem çözme biçimlerini edinmeye başladı
- Cursor, LLM uygulamalarının yeni katmanını tanımlayarak belirli dikeylerde bağlam mühendisliği ve karmaşık LLM çağrısı orkestrasyonu yapan bir yaklaşım sundu
- Claude Code, kullanıcının yerel bilgisayarında çalışan LLM ajanlarının ilk ikna edici örneği olarak ortaya çıktı ve yapay zeka ile yeni bir etkileşim paradigması sundu
- Vibe Coding, uzman olmayan kişilerin de yalnızca İngilizce ile program oluşturabilmesini sağlayarak yazılım geliştirmesinin demokratikleşeceğine ve iş tanımlarının değişeceğine işaret etti
1. Doğrulanabilir Ödüllerden Pekiştirmeli Öğrenmenin (RLVR) Yükselişi
- 2025'in başına kadar LLM üretim yığını, ön eğitim (Pretraining), gözetimli ince ayar (SFT) ve insan geri bildiriminden pekiştirmeli öğrenme (RLHF) olmak üzere üç aşamalı bir yapıdaydı
- RLVR (Reinforcement Learning from Verifiable Rewards) yeni önemli aşama olarak eklendi; matematik ve kod bulmacaları gibi otomatik doğrulanabilir ödüller üzerinde LLM eğitimi yapılıyor
- LLM'ler, sorunları ara hesaplama adımlarına bölme ve çeşitli çözüm stratejileri geliştirme gibi "akıl yürütmeye" benzeyen davranışları kendiliğinden edinmeye başladı
- Bu stratejilere önceki paradigma ile ulaşmak zordu çünkü en iyi akıl yürütme izinin ne olduğu belirsizdi
- LLM, ödül optimizasyonu yoluyla kendine uyan yöntemi kendi başına bulmak zorunda
- SFT/RLHF'den farklı olarak RLVR, nesnel ve oyunlaştırılamayan ödül fonksiyonları üzerinde çok daha uzun optimizasyonlara izin veriyor
- RLVR'nin yüksek maliyet başına yetenek (capability/$) oranı nedeniyle, başlangıçta ön eğitim için ayrılan hesaplama kaynakları RLVR'ye kaydırıldı
- 2025'teki yetenek ilerlemesinin büyük kısmı, benzer büyüklükteki LLM'lere daha uzun RL çalıştırmaları uygulanmasıyla tanımlandı
- Test zamanı hesaplamasını ayarlamaya yönelik yeni bir düğme (ve ölçekleme yasası) ortaya çıktı; daha uzun akıl yürütme izleri üretmek ve "düşünme süresini" artırmak yoluyla yetenek ayarlanabiliyor
- OpenAI o1 (2024 sonu), ilk RLVR modeli gösterimiydi; o3'ün çıkışı (2025 başı) farkın sezgisel olarak hissedildiği dönüm noktası oldu
2. Hayaletler vs. Hayvanlar / Pürüzlü Zeka (Jagged Intelligence)
- 2025'te LLM zekasının "biçimini" daha sezgisel anlamaya başladık
- LLM'ler, "bir hayvanı evrimleştirmek/büyütmek" değil, "bir hayalet çağırmak" gibi
- Sinir mimarisi, eğitim verisi, eğitim algoritması ve optimizasyon baskılarının tümü farklı olduğu için zeka uzayında çok farklı varlıklar ortaya çıkıyor
- İnsan sinir ağları vahşi doğada türün hayatta kalması için optimize edildi; LLM sinir ağları ise insanlığın metinlerini taklit etmek, matematik bulmacalarından ödül toplamak ve LM Arena'da upvote almak için optimize edildi
- Doğrulanabilir alanlarda RLVR mümkün hale geldikçe, LLM yetenekleri bu alanlarda "sivrilerek" düzensiz performans özellikleri göstermeye başladı
- Aynı anda hem dahi bir genel kültür ustası hem de kafası karışık bir ilkokul öğrencisi gibi davranabiliyor, birkaç saniye içinde jailbreak'e kanıp veri sızdırabiliyor
- Kıyaslamalara yönelik güven kaybı ve ilgisizlik oluştu
- Kıyaslamalar neredeyse tanım gereği doğrulanabilir ortamlar olduğu için RLVR'ye ve zayıf sentetik veri üretimi biçimlerine hemen açık hale geliyor
- Ekipler, benchmaxxing sürecinde kıyaslama gömme uzayının yakınında ortamlar kurarak kapsama sağlıyor
- Test setini öğrenmek yeni bir teknik haline geliyor
- "Tüm benchmark'ları geçip yine de AGI'ye ulaşamamak" nasıl bir durum olurdu?
- İlgili yazılar
3. Cursor / LLM Uygulamalarının Yeni Katmanı
- Cursor'un hızlı büyümesiyle birlikte "LLM uygulaması" için yeni bir katman görünür hale geldi
- "Cursor for X" ifadesi kullanılmaya başlandı
- Cursor benzeri LLM uygulamaları, belirli dikeyler için LLM çağrılarını paketleyip orkestre ediyor
1. Bağlam mühendisliği yapıyor
2. Birden fazla LLM çağrısını giderek daha karmaşık DAG'ler halinde orkestre ederek performans ile maliyet arasındaki dengeyi ayarlıyor
3. Human-in-the-loop için uygulamaya özel GUI sunuyor
4. "Özerklik kaydırıcısı" sağlıyor
- Bu yeni uygulama katmanının ne kadar "kalın" olduğu konusunda yoğun tartışma var
- LLM laboratuvarlarının tüm uygulamaları ele geçirip geçirmeyeceği ya da LLM uygulamaları için fırsat kalıp kalmayacağı tartışılıyor
- LLM laboratuvarları genelde yetkin üniversite mezunları üretme eğilimindeyken, LLM uygulamalarının belirli dikeylerde özel veriler, sensörler, aktüatörler ve geri bildirim döngüleri sağlayarak bunları organize edip ince ayarlayarak gerçek uzmanlara dönüştürmesi bekleniyor
4. Claude Code / Bilgisayarda Yerleşik Yapay Zeka
- Claude Code (CC), LLM ajanlarının ilk ikna edici gösterimi olarak ortaya çıktı
- Araç kullanımı ile akıl yürütmeyi döngüsel biçimde bağlayarak genişletilmiş problem çözme sağlıyor
- CC, kullanıcının bilgisayarında özel ortam, veri ve bağlam ile birlikte çalışıyor
- OpenAI, erken dönem Codex/ajan çabalarında yönünü yanlış belirleyerek ChatGPT içinde orkestre edilen bulut konteyner dağıtımlarına odaklandı
- Sadece
localhost yerine buluta odaklandı
- Ajan sürülerinin bulutta çalışması "AGI son oyunu" gibi hissettirse de, şu anda durum pürüzlü yeteneklerin olduğu ara ve yavaş bir sıçrama dünyası
- Ajanları doğrudan geliştiricinin bilgisayarında çalıştırmak daha mantıklı
- Önemli ayrım, "yapay zeka işinin" nerede çalıştığı değil; zaten var olan ve açılmış bilgisayar, kurulum, bağlam, veri, sırlar, yapılandırma ve düşük gecikmeli etkileşim ile ilgili olması
- Anthropic bu önceliği doğru okuyup CC'yi sade bir CLI form faktörü ile paketledi
- Yapay zeka artık Google gibi ziyaret edilen bir web sitesi değil, bilgisayarda "ikamet eden" küçük bir ruh/hayalet gibi görülen yeni bir etkileşim paradigması
5. Vibe Coding
- 2025, yapay zekanın yalnızca İngilizce ile etkileyici çeşitlilikte programlar üretebildiği yetenek eşiğini aştığı yıl oldu
- Kodun varlığını bile unutup programlamak mümkün hale geldi
- "vibe coding" terimi bir tweette ortaya atıldı, ancak bu kadar yaygınlaşacağı öngörülmemişti
- Vibe Coding ile programlama, yalnızca yüksek eğitimli uzmanların alanı olmaktan çıkıp herkesin yapabileceği bir şeye dönüşüyor
- LLM'ler, diğer tüm teknolojilerden farklı olarak sıradan insanların uzmanlardan, şirketlerden ve hükümetlerden çok daha fazla fayda gördüğü bir örnek sunuyor
- Vibe Coding, sıradan insanlara programlamaya erişim sağlamakla kalmıyor; eğitimli uzmanların da başka türlü yazılmayacak (vibe-coded) yazılımları çok daha fazla üretmesini sağlıyor
- Somut örnekler:
- nanochat içinde, mevcut kütüphaneleri benimsemeden veya Rust'ı derinlemesine öğrenmeden Rust ile özel, yüksek verimli bir BPE tokenizer'ı vibe coding ile yazmak
- menugen, llm-council, reader3, HN time capsule gibi var olmasını istediği şeyleri hızlı uygulama demoları olarak vibe coding ile üretmek
- Tek bir bug'ı bulmak için tek seferlik bir uygulamanın tamamını vibe coding ile yazmak; kod artık bir anda ücretsiz, geçici, esnek ve tek kullanımlık hale geliyor
- Vibe Coding'in yazılımı terraforme edeceği ve iş tanımlarını değiştireceği öngörülüyor
6. Nano Banana / LLM GUI
- Google Gemini Nano Banana, 2025'in en şaşırtıcı paradigma değişimi yaratan modellerinden biri
- LLM'lerin, 1970'ler-80'lerdeki bilgisayarlara benzer şekilde bir sonraki büyük bilişim paradigması olduğu dünya görüşünde, benzer türde yeniliklerin temelde benzer nedenlerle ortaya çıkması beklenir
- Kişisel bilişim, mikrodenetleyiciler (bilişsel çekirdek), internet (ajanların) gibi karşılıklar ortaya çıkacaktır
- UIUX açısından LLM ile "sohbet etmek", 1980'lerde bilgisayar konsoluna komut vermeye benziyor
- Metin, bilgisayarlar (ve LLM'ler) için tercih edilen ham veri temsili olsa da insanlar için tercih edilen biçim değil
- Özellikle giriş tarafında insanlar metin okumayı sevmez; yavaştır ve çaba gerektirir
- İnsanlar bilgiyi görsel ve mekânsal olarak tüketmeyi sever; bu yüzden geleneksel bilişimde GUI icat edildi
- Aynı şekilde LLM'lerin de insanların tercih ettiği biçimlerde, yani görseller, infografikler, slaytlar, beyaz tahtalar, animasyonlar/videolar, web uygulamaları gibi formatlarda iletişim kurması gerekir
- Şu anki erken sürümler, emoji ve Markdown benzeri şeyler; başlıklar, kalın, italik, listeler, tablolar gibi araçlarla metni "görsel olarak süsleyip" düzenliyor
- Nano Banana, LLM GUI'nin nasıl görünebileceğine dair ilk erken ipucu
- Asıl önemli olan yalnızca görüntü üretimi değil; metin üretimi, görüntü üretimi ve dünya bilgisinin model ağırlıkları içinde birbirine dolanmış birleşik yetenekler oluşturması
TLDR; Genel Özet
- 2025, LLM'ler için ilginç ve biraz da şaşırtıcı bir yıl oldu
- LLM'ler, beklenenden çok daha akıllı ama aynı zamanda beklenenden çok daha aptal olan yeni bir zeka türü olarak öne çıktı
- Buna rağmen LLM'ler son derece faydalı ve sektörün mevcut teknoloji seviyesinde bile potansiyelinin %10'unu bile kullanamadığı düşünülüyor
- Denemeye değer sonsuz sayıda fikir var ve kavramsal olarak bu alanın hala gidecek çok yolu olduğu görülüyor
- (Görünüşte paradoksal olsa da) bundan sonra da hızlı ve sürekli ilerleme olacağına inanılırken, aynı zamanda hâlâ yapılacak çok iş olduğu düşünülüyor
2 yorum
"menugen, llm-council, reader3, HN time capsule gibi var olmasını istediğim şeyleri hızlı uygulama demoları olarak vibe coding ile yapıyor"
Vibe coding'in babasına yakışır şekilde, vibe coding ile yaptığı şeyler benim yaptığım ufak tefek şeylerden inanılmaz derecede farklı. 🤣
Hacker News yorumları
Bu yıl benim için en etkileyici yenilik Claude Code oldu
Cursor iyi bir kavram kanıtıydı ama LLM’leri kod yazarken gerçekten kullanmamı sağlayan şey Claude Code oldu
Claude’un ürettiği kod neredeyse benim yazacağım kodla aynı, sanki aklımı okuyormuş gibi
Bu sayede Claude’un yazdığı kodun bakımını yapmak da kolay oluyor
Kod stilini %90–95 oranında tahmin edebiliyorum ve benden çok daha hızlı yazıyor
Gemini de etkileyici ama özellikle Nano Banana grafik tasarımda faydalı
Kodlama için Gemini’yi henüz denemedim. Claude Code o kadar iyi ki daha da hızlı kod yazarsam bu kez karar yorgunluğu yaşayacağım gibi geliyor
Mimari ya da UX kararlarını aceleye getirmem; genelde bir iki gün düşündükten sonra uygulamaya başlarım. Çünkü bir yola girdikten sonra geri dönmek zor oluyor ve batık maliyet yanılgısı yüzünden yanlış seçimde ısrar edebiliyorsun
IntelliJ IDEA’ya Claude Code eklentisini kurdum; IDE’yi sadece kod gezintisi ya da inceleme için kullanıyorum
Artık iki satırdan fazla kodu kendim yazdığımı hatırlamıyorum
Claude Code sayesinde üretkenliğim en az 5 kat arttı ve test yazmanın maliyeti neredeyse sıfıra indiği için test kapsamı da çok daha iyi hale geldi
Claude’la birlikte plan yapıyor, soru soruyor, uygulatıyor, inceletiyor ve düzeltme istiyorum; yani tam bir AI ajan iş akışı kullanıyorum
Manuel kodlama hiç yok. Tam anlamıyla sıfır
Böyle bir şeyi yayımlamış olmalarına hâlâ inanamıyorum
Ama her seferinde Claude’dan kodu daha zarif ve okunabilir hale getirmesini isterken sonunda doğrudan Claude Code’a geçtim
GLM de iyi prompt’larla epey yaklaşıyor ama günde 0,6 dolar ödeyip bunları düşünmemek mümkünse fazla kafa yormaya gerek olmadığını düşünüyorum
Aynı modelleri kullanırken benim neyi kaçırdığımı merak ediyorum
Karpathy’nin yazılarını seviyorum ama artık “It’s not X, it’s Y” gibi LLM tarzı cümle yapıları görünce istemsizce irkiliyorum
3 yıl önce böyle değildi ama şimdi bu üslup bana tamamen bozulmuş gibi geliyor
“It’s not just a website…” gibi cümlelere retorik yağ (rhetorical fat) diyorum
Bu fazlalıkları atınca geriye daha tekdüze ama daha net cümleler kalıyor
Özellikle “little spirit” gibi ifadeler fazla süslü geliyor ve göz devirmeme neden oluyor
Elbette yazar bunu vurgu için yapıyor olabilir ama benim yazı ideallerimle uyuşmadığı için itici geliyor
“It’s not just about image generation…” gibi cümleler gereksiz kavramsal gerilim yaratıyor
Bence onun yerine “görüntü üretimi metin üretimiyle birleştiğinde daha havalı oluyor” demek daha iyi
Harika ve gerçekçi bir incelemeydi
“LLM beklenenden daha zeki ama aynı anda daha aptal” sözü beni düşündürüyor
Hangi tarafıyla karşılaşacağını nasıl bilebilirsin?
Kodlamada hataları fark etmek kolay ama genel alanlarda daha zor değil mi?
Bir de “sıradan insanlar LLM’lerden uzmanlardan daha çok fayda görüyor” iddiası için geçmişte AppleScript, VB ve görsel programlama için de benzer beklentiler vardı ama sonuçta AI daha çok akıllı bir arama motoru gibi kullanılıyor
Ama sorun şu ki en ağır halüsinasyonlar (hallucination) da tam bu alanda yaşanıyor. Çözümün ne olduğunu merak ediyorum
Andrej’in iyimser tavrını seviyorum ama 2025’te endüstriyel güç yoğunlaşmasının nasıl değiştiği ve açık kaynak, yerel çıkarım ve donanım kısıtları gibi konularda ne düşündüğünü de duymak isterdim
Mesela Claude Code’un “yerelde çalıştığını” söylüyor ama gerçekte yalnızca TUI yerelde, çıkarım ise bulutta gerçekleşiyor
Bu yapının 2026’dan sonra nasıl evrileceğini merak ediyorum
Bulut kurulumlarının sıkıntılı olmasının sebebi hesaplama değil, UI/UX ve kullanıcı döngüsü
Ollama’da barındırılan gpt-oss modelleriyle çalıştırılabiliyor
codex --oss -m gpt-oss:20bgibi; daha büyük modeller de mümkün (120b)Bu ajan Bash çağırabiliyor, dosya sistemiyle çalışabiliyor ve işletim sistemi üzerinde neredeyse her şeyi yapabiliyor
Yani model uzaktaki beyin, ajan ise bir mekanik zırh gibi
Çıkarımın yerelde olmasından değil, ajanın yerelde çalışmasından söz ediyor gibiydi
OpenAI Codex’i bulut merkezli tasarlarken CC’nin yerel öncelikli bir yaklaşım seçtiğini vurgulamak istemiş olabilir
Ama bu ayrımın çok daha açık anlatılması gerekiyor
Karpathy’nin RLVR için kullandığı “hayvan beslemek vs hayalet çağırmak” benzetmesi, bugünkü pürüzlü zekâyı (jagged intelligence) açıklamak için bence mükemmel bir model
Biz genel amaçlı hayatta kalabilen varlıklar üretmiyoruz; doğrulanabilir ödüllere göre belirli alanları aşırı optimize ediyoruz
Bir de vibe coding yüzünden ortaya çıkan tek kullanımlık yazılım fikri bana çok tanıdık geliyor
Tek bir sorunu debug etmek için geçici bir uygulama yapıp sonra silmek gerçekten de bir değişim gibi hissettiriyor
İnsanlar ve hayvanlar gerçekten zeki varlıklar, LLM’ler ise yalnızca insan çıktılarının dar bir yankısı
Gerçek yapay zeka olabilmesi için özerklik, sürekli öğrenme, merak ve sanal bedensellik gibi özelliklere ihtiyaç var
Çoğu hayvan içgüdüsel olabilir ama yalnızca insanlar gibi genelleştirilmiş öğrenme kapasitesine sahip olanlar gerçek zekâya sahip sayılır
Gerçek maliyetler ödenmeye başladığında bu tür tek kullanımlık uygulama üretiminin sürüp sürmeyeceğini görmek gerekecek
Yazımda anlattım; Jupyter’ın başlattığı işi tamamlayan bir yığın bu
İşlevsel çit (fence) yapısında, çağrılabilir ve birleştirilebilir
MCP’ye benziyor; ayrıca öğrenmeye gerek yok, sadece kalıpları kavramak yeterli
Hatta 18. yüzyıl piyano eğitim yöntemleriyle bağlam mühendisliğini bağlayan bir functor bile var
Karpathy’nin “LLM’ler görüntü, slayt, beyaz tahta gibi kullanıcının tercih ettiği formatta iletişim kurmalı” demesi ilginç
Ama LLM her kullanıcı için her seferinde yeni bir UX üretirse bu bir öngörülemez arayüz cehennemine dönüşebilir
“Bu uygulamada Command-W ne yapıyor?” gibi durumlar çıkar
Mesela Codex bu konuda insanlardan daha titiz
LLM’nin kendisi en iyi UI
Birden fazla dili ve soyut kavramları anlayabildiği için rastgele arayüz üretmeye gerek yok
Ana dili İngilizce olmayan biri olarak Almanca kelimeler karıştırdığımda bile beni gayet iyi anlıyor
Birçok AI influencer’ı “metin tabanlı UI ortadan kalkacak” diye emin konuşuyor ama gerçekte metin arayüzü hâlâ merkezde
Meğer plan kartındaki düşük kontrastlı üç nokta menüsünün içine gizlenmiş ve ona tıklayınca AI sohbet penceresi açılıyormuş
Ancak “unsubscribe” prompt’unu girdikten sonra düğme ortaya çıktı
Bu tür otomatik telefon sistemi tarzı UX’i uygulamalara sokmak bence korkunç
Bir frontend mühendisi olarak bu trend bana ürkütücü geliyor
Andrej’in bu yılın yüksek hızlı modelleri (Gemini 3 Flash, Grok 4 Fast) hakkında ne düşündüğünü merak ediyorum
Bu kadar hızlı, ucuz ve iyi modeller çıkmışken topluluğun neredeyse hiç dikkat etmemesi tuhaf
Görsel arayüzlere yönelik LLM vizyonunun gerçekleşmesi için bu tip modeller şart gibi görünüyor
Büyük modellerin ürettiği akıl yürütme izleriyle (reasoning traces) eğitilmiş olabilirler diye tahmin ediyorum
2025 aynı zamanda eğitim verilerine hayaletlerin girmeye başladığı yıl da oldu
Artık X’in (Twitter) yarısı, LLM’lerin başka LLM’lere cevap verdiği bir yapı gibi
Yani bir bakıma çağrıların veri kümesinin içinde gerçekleştiği bir durumdayız
o3’ün bir dönüm noktası olduğu fikrine katılıyorum
Bazıları o3 ya da o4-mini’nin aslında fiilen GPT-5 seviyesinde olduğunu söylemişti
Ama isimleri yabancı geldiği için ilgi görmediler; buna karşılık gpt-5 yalnızca kademeli iyileştirmeler sunduğu için hayal kırıklığı yarattı
o4-mini konuşma dilinde biraz tuhaftı, bu yüzden varsayılan model olmaya uygun olmayabilirdi ama “gpt-5 pro” gibi bir adla 20 dolarlık plana konsa iyi olurdu
Şimdi geriye dönüp bakınca asıl büyük sürüm zamanlamasının o an olduğunu düşünüyorum