- Son dönemde yapay zeka kodlama yardımcı araçlarının genel kalitesinde düşüş görülüyor; iş hızı ve sonuç doğruluğu eskisine göre kötüleşiyor
- En yeni büyük dil modelleri (LLM) sözdizimi hatalarını azaltırken, çalışan ama sonucu yanlış olan sessiz başarısızlıklar (silent failure) üretmeye daha yatkın hale geliyor
- Deneylerde GPT-5, hatanın kaynağını ortaya çıkarmadan değer uydurarak sorunu örtbas ederken, GPT-4 ve Claude’un eski sürümleri veri ya da kodun kendisindeki sorunu nispeten daha açık biçimde ortaya koyuyor
- Bu değişim, kullanıcı kabulünü bir öğrenme sinyali olarak kullanma sürecinde veri kalitesinin bulanıklaşmasının bir sonucu ile örtüşüyor
- Kısa vadeli çalıştırma başarısından çok yüksek kaliteli veri ve uzman doğrulamasına yatırım yapılmazsa, modelin kendi ürettiği hataları yeniden öğrenmesine yol açan bir kısır döngüye girme riski büyüyor
Yapay zeka kodlama yardımcı araçlarında performans düşüşü
- Son birkaç ayda yapay zeka kodlama yardımcı araçlarında iş verimliliği ile kod güvenilirliğinin birlikte gerilediği görülüyor
- Geçmişte yapay zeka desteğiyle 5 saatte tamamlanan bir işin artık 7–8 saatten fazla sürmesi daha sık görülüyor
- Bazı kullanıcılar istikrar nedeniyle önceki nesil LLM’leri yeniden tercih ediyor
- Bu değişim, insan müdahalesi olmadan yapay zeka üretimi kodu çalıştıran test ortamlarında tekrar tekrar gözlemleniyor
Yeni modellerde öne çıkan ‘sessiz başarısızlık’
- Geçmişte sorunlar çoğunlukla sözdizimi hataları ya da açık mantık hatalarıydı ve çalıştırma aşamasında hemen ortaya çıkıyordu
- En yeni modeller, yüzeyde normal çalışan ama anlam olarak yanlış kod üretmeye daha yatkın
- Güvenlik kontrollerinin kaldırılması
- Yalnızca çıktı biçimini tutturmak için sahte değerler üretilmesi
- Bu tür örtük hatalar geç fark ediliyor ve sonraki aşamalarda daha büyük maliyet ve karmaşaya yol açıyor
- Bu durum, modern programlama dillerinin hızlı ve açık biçimde başarısız olacak şekilde tasarlanma gerekçesiyle doğrudan çelişiyor
Basit testlerde ortaya çıkan fark
- Var olmayan bir sütuna başvuran Python kod hatası, ChatGPT’nin çeşitli sürümlerine verildi
- GPT-4: Çoğu yanıtta hatanın nedenine işaret ediyor ya da hata ayıklamaya yönlendiriyor
- GPT-4.1: Sorunu doğrulamak için dataframe sütunlarını yazdırmaya yönlendiriyor
- GPT-5: Gerçek indeksleri kullanarak hesaplama yapıyor, kodun çalışmasını başarılıymış gibi gösteriyor ve sonuçta anlamsız değerler üretiyor
- Claude modellerinde de benzer bir eğilim görüldü
- Eski sürümler sorun fark etmeye odaklanıyor
- Yeni sürümler hatayı görmezden geliyor ya da onu dolanan çözümler öneriyor
Öğrenme yöntemi ile kalite düşüşü arasındaki bağ
- İlk modeller, büyük miktarda mevcut kod üzerinde eğitiliyordu; hataları çoktu ama sorunun kendisini gizlemiyordu
- Sonrasında IDE entegrasyonlarıyla birlikte kullanıcı davranışı (kodun kabul edilmesi, çalıştırmanın başarılı olup olmaması) bir öğrenme sinyali olarak kullanılmaya başlandı
- Acemi kullanıcı sayısı arttıkça, yalnızca çalışıyorsa iyi koddur şeklindeki sinyaller birikiyor ve model bunu öğreniyor
- Sonuç olarak güvenlik kontrollerini kaldırma, sahte veri üretme gibi hatalı örüntüler güçleniyor
- Otomatik kodlama özellikleri arttıkça insan doğrulaması azalıyor ve model yanlış öğrenmeyi tekrarlamaya başlıyor
Bundan sonra gerekli yönelim
- Yapay zeka kodlama yardımcı araçları hâlâ geliştirici üretkenliğini ve erişilebilirliği büyük ölçüde artıran araçlar
- Ancak çalıştırma başarısı odaklı öğrenme, uzun vadede kod kalitesine zarar veriyor
- Uzmanlarca etiketlenmiş yüksek kaliteli verinin sağlanması ve sorumlu yeniden eğitim süreçleri zorunlu
- Aksi halde modellerin hatalı çıktı → hatalı öğrenme → daha kötü çıktı döngüsüne girme ihtimali yüksek
1 yorum
Hacker News görüşleri
Yapay zeka meraklılarının kendi üretkenlik artışlarını anlatırken öznel deneyimlere dayanması, karşıt görüşlerden ise aşırı ispat yükü talep etmesi ilginç
Yazar gerçekten de canlı yayın demosu yapacağını duyurmuştu, ama sonuçta basit bir genişletme işini bir saat boyunca bitiremedi
Ben elimle yapsaydım da herhalde benzer süre alırdı
Bu yüzden yorumda “10 kat artış nerede?” diye sordum, o da “geçici bir hataydı” ya da “yapay zeka yanıt verirken başka işler yapabildim” gibi gerekçelerle inkâr etti
Açıkçası başta şüpheciydim ama şüphelerimin haksız çıkmasını umuyordum. Öyle olmadı
Sonuçta üretkenlik artışı iddiasının ispat yükü tamamen iddia sahibine ait
Yapay zekanın özgün düşünce üretebildiğini sanmıyorum. Onun yerine tab otomatik tamamlama özelliği döngüler, hata işleme ve dokümantasyon gibi işlerde ciddi zaman kazandırıyor
Sorun çözme hızının kendisi aynı kalıyor ama uygulama aşamasında kesin olarak hızlanıyor
Yani “10 kat artış” varsa bu sorun çözmede değil, yazma hızında 10 kat artış
C# tabanlı, 1 milyon satırlık bir projede bile kalite düşmeden üretkenlik ciddi biçimde arttı
Eleştirenlere “gelin size göstereyim” demek istiyorum. Gizli bir teknik yok, sadece aracı kullanmayı öğrenmek zaman aldı
Ama madem öyle, neden ortaya koydukları o müthiş sonuçları göstermiyorlar da özellikle beni ikna etmeye çalışıyorlar?
Acaba ortada bir ödül ya da teşvik mi var diye şüpheleniyorum
Sorun yapay zekanın kötüleşmesi değil, sonuçların yeniden üretilebilirliğinin düşmesi
Taksi çağırma ve yemek teslimatı uygulamaları gibi, LLM ekosistemi de sonunda fiyat artırma yapısına gidecek gibi görünüyor. Şu an sadece yatırım parası sayesinde sübvansiyonlu bir dönem yaşıyoruz
Şu anda sübvansiyon sayesinde ucuz ama yakında sübvansiyon olmadan da ucuz olması gayet olası
Yine de en yeni modelleri (SOTA) kullanmak daha pahalı olabilir. Ama bu başka bir değer meselesi
10–20 bin dolara gün boyu token üretebilen bir makine kurulabilir, büyük ölçekli işletmeler de ölçek ekonomisi sayesinde daha verimli çalışır
Bu yönüyle hâlâ güven vermiyor
Yatırım parası kesilince fiyatlar eninde sonunda artacak ve ancak rekabet ortadan kalktıktan sonra gerçek maliyet yapısı ortaya çıkacak
Bazı kullanıcılar “yapay zeka kötüleşti” testinin tuhaf olduğunu düşünüyor
Örneğin var olmayan bir kolona referans veren kod için “yorum ekleme, sadece tamamlanmış kodu ver” denirse, yapay zeka ister istemez hatalı kod üretmek zorunda kalır
Yetenekli bir geliştirici “bu istek hatalı” diye belirtirdi. Bu test, pohpohlayıcı yanıt verme eğilimini (sycophantism) ortaya çıkaran geçerli bir deney
Sessizce yanlış sonuç üretmek tehlikelidir
index_valuekolonu yok, onun yerinedf.indexkullanılmalı” diyebilirBöyle hatalar, GPT-2 düzeyinde bir halüsinasyona (hallucination) daha yakın
Yapay zeka destekli geliştirme araçlarını seviyorum ama bunun her zaman mutlak bir kazanç olup olmadığından emin değilim
Eskiden öğle arasını kısaltmak için Huel içerdim ama sonunda molanın değerini kaybetmiş oldum
Yapay zeka da ayrıntıları kaçırdığında, sonradan geri dönüp düzeltmek için harcanan zaman yaratabiliyor
Bu yüzden projenin tüm bağlamı ve kısıtlarını içeren 15k token'lık bir Markdown dosyası hazırlayıp her prompta ekliyorum
Bir tür “dünya modeli” belgesi gibi
Kazandığın zaman kadar daha fazla iş alıyorsun, bu da öz yeterlilik ile sorun çözme becerilerini zayıflatıyor
Bu tür “verimsizliğin” aslında bilgi ve içgörü edinme süreci olduğunu unutmak kolay
Yapay zekanın sağladığı üretkenlik artışı, gerçek operasyon maliyeti ile karşılaştırıldığında abartılıyor olabilir
IEEE'den teknik bir makale bekliyordum, ama bu yazının görüş yazısı (opinion piece) düzeyinde kalması hayal kırıklığı yarattı
GPT-5'in sorun çözmeye fazla odaklanıp büyük resmi kaçırdığı fikrine katılıyorum, ama diğer modeller hâlâ iyi iş çıkarıyor
Ben şahsen Gemini-3-flash ve özel bir Copilot alternatifi eklenti kullanıyorum; bunlar çok daha faydalı ve kişiselleştirilmiş bir geliştirme deneyimi sunuyor
Son zamanlarda Cursor'ın sonsuz döngüye girmiş gibi
grep,cd,lskomutlarını tekrarladığını gördümSanki çok fazla “vibe coder” hedeflenmiş ve bu yüzden özellikler gereğinden fazla şişirilmiş. Oysa hafif bir sürümü yönetmek daha kolaydı
“Çalıştırma başarısız oldu” sonucu her zaman kötü bir işaret değildir
Bazen bu, en yakın doğru cevap olabilir ya da bir bug'ı bulmak için ipucu sağlayabilir
Ama çalıştırmak uğruna doğrulama mantığını kaldırmak veya anlamı değiştirmek en kötü sonuçtur
LLM'ler internetteki tüm bilgiyi tükettikten sonra ne olacak diye merak ediyorum
Stack Overflow ya da açık kaynak kod ortadan kaybolursa, sonunda kendi kendini eğitip çökmezler mi (model collapse)?
Ama gerçek dünya ölçeğindeki veri için riskin büyük olmadığını düşünen araştırmacılar da var
Son dönemde NVIDIA Nemotron 3 Nano modelinin eğitim verisinin %33'ü sentetik veriden (synthetic data) oluşuyordu
Bakım kolaylığı gibi değer fonksiyonlarını da içeren simülasyonlar çalıştırılabilir
Yapay zeka kendi hatasını fark edemezse öz çöküş yaşanma ihtimali var
“sharing is caring” interneti belki de ortadan kalkacak
Yapay zeka kötüleşmedi; sadece iyileşti ve kullanım şekli değişti
Doğru scaffolding kurulduğunda çok daha iyi sonuçlar alınabiliyor
Basit testlerle “yapay zeka aptallaştı” sonucuna varmak hatalı
Mesela “Aralık ayı geliri” diye sorulduğunda çoğu model yıl koşulu koymadan tüm Aralık aylarını topluyor
Bu tür mantıksal hatalar gerçek işlerde sorun çıkarıyor
Teknik kelime haznesi ve ifade gücü performansı etkiliyor gibi duruyor
Ben de model kalitesinde aylık dalgalanmalar hissediyorum
Eskiden iyi yaptığı hata işleme ya da değişken adlandırma kurallarını unutmuş gibi görünüyor
Sohbet uzadıkça kalitenin düştüğü durumlar da oluyor. Sanki prompt uzunluğu için bir optimum nokta var
yeni işler için yeni bir thread başlatmak ve gereksiz istekleri silmek daha iyi