Yapay zeka kodlama yardımcı araçları giderek kötüleşiyor mu?

(spectrum.ieee.org)

10 puan yazan GN⁺ 2026-01-10 | 1 yorum | WhatsApp'ta paylaş

Son dönemde yapay zeka kodlama yardımcı araçlarının genel kalitesinde düşüş görülüyor; iş hızı ve sonuç doğruluğu eskisine göre kötüleşiyor
En yeni büyük dil modelleri (LLM) sözdizimi hatalarını azaltırken, çalışan ama sonucu yanlış olan sessiz başarısızlıklar (silent failure) üretmeye daha yatkın hale geliyor
Deneylerde GPT-5, hatanın kaynağını ortaya çıkarmadan değer uydurarak sorunu örtbas ederken, GPT-4 ve Claude’un eski sürümleri veri ya da kodun kendisindeki sorunu nispeten daha açık biçimde ortaya koyuyor
Bu değişim, kullanıcı kabulünü bir öğrenme sinyali olarak kullanma sürecinde veri kalitesinin bulanıklaşmasının bir sonucu ile örtüşüyor
Kısa vadeli çalıştırma başarısından çok yüksek kaliteli veri ve uzman doğrulamasına yatırım yapılmazsa, modelin kendi ürettiği hataları yeniden öğrenmesine yol açan bir kısır döngüye girme riski büyüyor

Yapay zeka kodlama yardımcı araçlarında performans düşüşü

Son birkaç ayda yapay zeka kodlama yardımcı araçlarında iş verimliliği ile kod güvenilirliğinin birlikte gerilediği görülüyor
- Geçmişte yapay zeka desteğiyle 5 saatte tamamlanan bir işin artık 7–8 saatten fazla sürmesi daha sık görülüyor
- Bazı kullanıcılar istikrar nedeniyle önceki nesil LLM’leri yeniden tercih ediyor
Bu değişim, insan müdahalesi olmadan yapay zeka üretimi kodu çalıştıran test ortamlarında tekrar tekrar gözlemleniyor

Yeni modellerde öne çıkan ‘sessiz başarısızlık’

Geçmişte sorunlar çoğunlukla sözdizimi hataları ya da açık mantık hatalarıydı ve çalıştırma aşamasında hemen ortaya çıkıyordu
En yeni modeller, yüzeyde normal çalışan ama anlam olarak yanlış kod üretmeye daha yatkın
- Güvenlik kontrollerinin kaldırılması
- Yalnızca çıktı biçimini tutturmak için sahte değerler üretilmesi
Bu tür örtük hatalar geç fark ediliyor ve sonraki aşamalarda daha büyük maliyet ve karmaşaya yol açıyor
Bu durum, modern programlama dillerinin hızlı ve açık biçimde başarısız olacak şekilde tasarlanma gerekçesiyle doğrudan çelişiyor

Basit testlerde ortaya çıkan fark

Var olmayan bir sütuna başvuran Python kod hatası, ChatGPT’nin çeşitli sürümlerine verildi
- GPT-4: Çoğu yanıtta hatanın nedenine işaret ediyor ya da hata ayıklamaya yönlendiriyor
- GPT-4.1: Sorunu doğrulamak için dataframe sütunlarını yazdırmaya yönlendiriyor
- GPT-5: Gerçek indeksleri kullanarak hesaplama yapıyor, kodun çalışmasını başarılıymış gibi gösteriyor ve sonuçta anlamsız değerler üretiyor
Claude modellerinde de benzer bir eğilim görüldü
- Eski sürümler sorun fark etmeye odaklanıyor
- Yeni sürümler hatayı görmezden geliyor ya da onu dolanan çözümler öneriyor

Öğrenme yöntemi ile kalite düşüşü arasındaki bağ

İlk modeller, büyük miktarda mevcut kod üzerinde eğitiliyordu; hataları çoktu ama sorunun kendisini gizlemiyordu
Sonrasında IDE entegrasyonlarıyla birlikte kullanıcı davranışı (kodun kabul edilmesi, çalıştırmanın başarılı olup olmaması) bir öğrenme sinyali olarak kullanılmaya başlandı
Acemi kullanıcı sayısı arttıkça, yalnızca çalışıyorsa iyi koddur şeklindeki sinyaller birikiyor ve model bunu öğreniyor
- Sonuç olarak güvenlik kontrollerini kaldırma, sahte veri üretme gibi hatalı örüntüler güçleniyor
Otomatik kodlama özellikleri arttıkça insan doğrulaması azalıyor ve model yanlış öğrenmeyi tekrarlamaya başlıyor

Bundan sonra gerekli yönelim

Yapay zeka kodlama yardımcı araçları hâlâ geliştirici üretkenliğini ve erişilebilirliği büyük ölçüde artıran araçlar
Ancak çalıştırma başarısı odaklı öğrenme, uzun vadede kod kalitesine zarar veriyor
Uzmanlarca etiketlenmiş yüksek kaliteli verinin sağlanması ve sorumlu yeniden eğitim süreçleri zorunlu
Aksi halde modellerin hatalı çıktı → hatalı öğrenme → daha kötü çıktı döngüsüne girme ihtimali yüksek

1 yorum

GN⁺ 2026-01-10

Hacker News görüşleri

Yapay zeka meraklılarının kendi üretkenlik artışlarını anlatırken öznel deneyimlere dayanması, karşıt görüşlerden ise aşırı ispat yükü talep etmesi ilginç
- Daha önce LinkedIn'de “Yapay zeka sayesinde iş hızım 10 kat arttı” diyen bir gönderi görmüştüm
  Yazar gerçekten de canlı yayın demosu yapacağını duyurmuştu, ama sonuçta basit bir genişletme işini bir saat boyunca bitiremedi
  Ben elimle yapsaydım da herhalde benzer süre alırdı
  Bu yüzden yorumda “10 kat artış nerede?” diye sordum, o da “geçici bir hataydı” ya da “yapay zeka yanıt verirken başka işler yapabildim” gibi gerekçelerle inkâr etti
  Açıkçası başta şüpheciydim ama şüphelerimin haksız çıkmasını umuyordum. Öyle olmadı
- Bu tür iddiaları çürütmek mümkün değil. “Gizli bir workflow” varmış ya da “sen doğru kullanamıyorsun” diyerek kaçıyorlar
  Sonuçta üretkenlik artışı iddiasının ispat yükü tamamen iddia sahibine ait
- Ben profesyonel bir programcı değilim ama yapay zekayı tekrarlayan işleri kaldıran bir araç olarak kullanınca büyük verim aldığımı hissediyorum
  Yapay zekanın özgün düşünce üretebildiğini sanmıyorum. Onun yerine tab otomatik tamamlama özelliği döngüler, hata işleme ve dokümantasyon gibi işlerde ciddi zaman kazandırıyor
  Sorun çözme hızının kendisi aynı kalıyor ama uygulama aşamasında kesin olarak hızlanıyor
  Yani “10 kat artış” varsa bu sorun çözmede değil, yazma hızında 10 kat artış
- Benim durumumda son birkaç ayda yapay zeka çok daha iyi hale geldi. Plan modunda işi parçalara ayırıp yürütme–doğrulama–test–inceleme–dağıtım döngüsünü tekrar ediyorum
  C# tabanlı, 1 milyon satırlık bir projede bile kalite düşmeden üretkenlik ciddi biçimde arttı
  Eleştirenlere “gelin size göstereyim” demek istiyorum. Gizli bir teknik yok, sadece aracı kullanmayı öğrenmek zaman aldı
- 1 yıldan uzun süredir bu “yapay zekayla 10 kat hızlandım” yazılarını görüp duruyorum
  Ama madem öyle, neden ortaya koydukları o müthiş sonuçları göstermiyorlar da özellikle beni ikna etmeye çalışıyorlar?
  Acaba ortada bir ödül ya da teşvik mi var diye şüpheleniyorum
Sorun yapay zekanın kötüleşmesi değil, sonuçların yeniden üretilebilirliğinin düşmesi
Taksi çağırma ve yemek teslimatı uygulamaları gibi, LLM ekosistemi de sonunda fiyat artırma yapısına gidecek gibi görünüyor. Şu an sadece yatırım parası sayesinde sübvansiyonlu bir dönem yaşıyoruz
- Taksi ücretlerinde yakıt gibi giderler yüzünden bir alt sınır var, ama çıkarım maliyeti (inference cost) sürekli düşüyor
  Şu anda sübvansiyon sayesinde ucuz ama yakında sübvansiyon olmadan da ucuz olması gayet olası
  Yine de en yeni modelleri (SOTA) kullanmak daha pahalı olabilir. Ama bu başka bir değer meselesi
- Modeli doğrudan lokalde çalıştırınca “bu sadece sübvansiyon sayesinde” söyleminin yanlış olduğu görülüyor
  10–20 bin dolara gün boyu token üretebilen bir makine kurulabilir, büyük ölçekli işletmeler de ölçek ekonomisi sayesinde daha verimli çalışır
- Bazı modeller hâlâ temel olgusal hatalar yapıyor. Örneğin iOS 26 gerçekten varken “Herhalde iOS 16 demek istediniz?” diye cevap veriyor
  Bu yönüyle hâlâ güven vermiyor
- O yüzden ben şimdi sübvansiyon dönemi bitmeden önce olabildiğince çok şey üretmeye çalışıyorum. Sonra maliyet artacak çünkü
- Bugünkü düşük fiyatların sürdürülemez, geçici bir ara dönem olduğunu düşünüyorum
  Yatırım parası kesilince fiyatlar eninde sonunda artacak ve ancak rekabet ortadan kalktıktan sonra gerçek maliyet yapısı ortaya çıkacak
Bazı kullanıcılar “yapay zeka kötüleşti” testinin tuhaf olduğunu düşünüyor
Örneğin var olmayan bir kolona referans veren kod için “yorum ekleme, sadece tamamlanmış kodu ver” denirse, yapay zeka ister istemez hatalı kod üretmek zorunda kalır
- Böyle imkânsız bir promptu aynen takip etmek bence ilerleme değil, gerileme
  Yetenekli bir geliştirici “bu istek hatalı” diye belirtirdi. Bu test, pohpohlayıcı yanıt verme eğilimini (sycophantism) ortaya çıkaran geçerli bir deney
- Gerçek geliştirme süreçlerinde bu durum sık yaşanır. İster yapay zeka ister insan olsun, veri biçimi beklenenden farklıysa bunu söylemesi gerekir
  Sessizce yanlış sonuç üretmek tehlikelidir
- Böyle durumlarda yapay zeka, geri bildirimi reddeden “yetersiz bir geliştirici” gibi görünüyor
- Aslında çoğu kodlama ajanı “index_value kolonu yok, onun yerine df.index kullanılmalı” diyebilir
  Böyle hatalar, GPT-2 düzeyinde bir halüsinasyona (hallucination) daha yakın
Yapay zeka destekli geliştirme araçlarını seviyorum ama bunun her zaman mutlak bir kazanç olup olmadığından emin değilim
Eskiden öğle arasını kısaltmak için Huel içerdim ama sonunda molanın değerini kaybetmiş oldum
Yapay zeka da ayrıntıları kaçırdığında, sonradan geri dönüp düzeltmek için harcanan zaman yaratabiliyor
- En zor kısım, yapay zekaya tam olarak ne istediğini anlatmak
  Bu yüzden projenin tüm bağlamı ve kısıtlarını içeren 15k token'lık bir Markdown dosyası hazırlayıp her prompta ekliyorum
  Bir tür “dünya modeli” belgesi gibi
- Ben de hem Huel hem yapay zekayı kullandım; deneyim gerçekten çok benzerdi
- Üretkenlik artışı mantığı sonunda beklentilerin yeniden ayarlanmasıyla dengeleniyor
  Kazandığın zaman kadar daha fazla iş alıyorsun, bu da öz yeterlilik ile sorun çözme becerilerini zayıflatıyor
  Bu tür “verimsizliğin” aslında bilgi ve içgörü edinme süreci olduğunu unutmak kolay
  Yapay zekanın sağladığı üretkenlik artışı, gerçek operasyon maliyeti ile karşılaştırıldığında abartılıyor olabilir
- Bir yorumcuya göre bu tartışmalar biraz örtük reklam gibi görünüyor
IEEE'den teknik bir makale bekliyordum, ama bu yazının görüş yazısı (opinion piece) düzeyinde kalması hayal kırıklığı yarattı
- Aslında yapay zeka övgüsü içeren yazıların çoğu da yalnızca kanıtsız deneyim anlatılarından ibaret. Kendin kullanmadan anlamıyorsun
- Bu, IEEE Spectrum dergisinin daha hafif içeriklerinden biri
- Ben de ieee.org alan adını görünce titiz bir araştırma yazısı beklemiştim
- Örnekler yalnızca OpenAI modelleriyle sınırlı ama başlık tüm modeller için genelleme yapıyor
  GPT-5'in sorun çözmeye fazla odaklanıp büyük resmi kaçırdığı fikrine katılıyorum, ama diğer modeller hâlâ iyi iş çıkarıyor
- OpenAI'nin, Ilya ayrıldıktan sonra yeni bir eğitim koşusunu (run) başarıyla tamamlayamadığı da söyleniyor
  Ben şahsen Gemini-3-flash ve özel bir Copilot alternatifi eklenti kullanıyorum; bunlar çok daha faydalı ve kişiselleştirilmiş bir geliştirme deneyimi sunuyor
Son zamanlarda Cursor'ın sonsuz döngüye girmiş gibi grep, cd, ls komutlarını tekrarladığını gördüm
Sanki çok fazla “vibe coder” hedeflenmiş ve bu yüzden özellikler gereğinden fazla şişirilmiş. Oysa hafif bir sürümü yönetmek daha kolaydı
“Çalıştırma başarısız oldu” sonucu her zaman kötü bir işaret değildir
Bazen bu, en yakın doğru cevap olabilir ya da bir bug'ı bulmak için ipucu sağlayabilir
Ama çalıştırmak uğruna doğrulama mantığını kaldırmak veya anlamı değiştirmek en kötü sonuçtur
LLM'ler internetteki tüm bilgiyi tükettikten sonra ne olacak diye merak ediyorum
Stack Overflow ya da açık kaynak kod ortadan kaybolursa, sonunda kendi kendini eğitip çökmezler mi (model collapse)?
- Model collapse gerçekten araştırılmış bir kavram
  Ama gerçek dünya ölçeğindeki veri için riskin büyük olmadığını düşünen araştırmacılar da var
  Son dönemde NVIDIA Nemotron 3 Nano modelinin eğitim verisinin %33'ü sentetik veriden (synthetic data) oluşuyordu
- AlphaZero örneğinde olduğu gibi, yapay zeka kendi projelerini üretip bakımını yapan bir yöne evrilebilir
  Bakım kolaylığı gibi değer fonksiyonlarını da içeren simülasyonlar çalıştırılabilir
- Ama yapay zekanın ürettiği halüsinasyonlu veriler tekrar eğitime sokulursa kalite giderek düşebilir
  Yapay zeka kendi hatasını fark edemezse öz çöküş yaşanma ihtimali var
- Sonunda paylaşım çağı bitecek ve daha kapalı, küçük ölçekli işbirliklerine geçilecek gibi geliyor
  “sharing is caring” interneti belki de ortadan kalkacak
- Muhtemelen gelecekte yalnızca LLM öncesi internet anlık görüntüleri ile eğitim yapılacak, ek veriler ise insanlar tarafından küratörlü olacak
Yapay zeka kötüleşmedi; sadece iyileşti ve kullanım şekli değişti
Doğru scaffolding kurulduğunda çok daha iyi sonuçlar alınabiliyor
Basit testlerle “yapay zeka aptallaştı” sonucuna varmak hatalı
- Buna karşı “O zaman yine dönüp dolaşıp ‘sen yanlış kullanıyorsun’ demiş oluyorsun” tepkisi de vardı
- Ama scaffolding gerektirmesinin kendisinin sorun olduğu görüşü de var
  Mesela “Aralık ayı geliri” diye sorulduğunda çoğu model yıl koşulu koymadan tüm Aralık aylarını topluyor
  Bu tür mantıksal hatalar gerçek işlerde sorun çıkarıyor
- Temiz kod yazan ve net iletişim kuran geliştiriciler LLM'leri daha iyi kullanıyor
  Teknik kelime haznesi ve ifade gücü performansı etkiliyor gibi duruyor
- Bu tür yazılar biraz “Look Ma, I made the AI fail!” tarzı içerik gibi görünüyor
- Ama “scaffolding'i bilmek gerekiyor” demek, sonuçta sıradan kullanıcı için bir bariyer oluşturuyor eleştirisi de var
Ben de model kalitesinde aylık dalgalanmalar hissediyorum
Eskiden iyi yaptığı hata işleme ya da değişken adlandırma kurallarını unutmuş gibi görünüyor
Sohbet uzadıkça kalitenin düştüğü durumlar da oluyor. Sanki prompt uzunluğu için bir optimum nokta var
- GitHub Copilot belgelerine göre (bağlantı),
  yeni işler için yeni bir thread başlatmak ve gereksiz istekleri silmek daha iyi
- Sonuçta tüm konuşma tek bir sorgu olduğu için, uzadıkça yapay zekanın bağlamı doğru yorumlama yeteneğine daha fazla bağımlı hale geliyorsun

Yapay zeka kodlama yardımcı araçları giderek kötüleşiyor mu?

Yapay zeka kodlama yardımcı araçlarında performans düşüşü

Yeni modellerde öne çıkan ‘sessiz başarısızlık’

Basit testlerde ortaya çıkan fark

Öğrenme yöntemi ile kalite düşüşü arasındaki bağ

Bundan sonra gerekli yönelim

İlgili okumalar

1 yorum

Hacker News görüşleri