10 puan yazan GN⁺ 2026-01-10 | 1 yorum | WhatsApp'ta paylaş
  • Son dönemde yapay zeka kodlama yardımcı araçlarının genel kalitesinde düşüş görülüyor; iş hızı ve sonuç doğruluğu eskisine göre kötüleşiyor
  • En yeni büyük dil modelleri (LLM) sözdizimi hatalarını azaltırken, çalışan ama sonucu yanlış olan sessiz başarısızlıklar (silent failure) üretmeye daha yatkın hale geliyor
  • Deneylerde GPT-5, hatanın kaynağını ortaya çıkarmadan değer uydurarak sorunu örtbas ederken, GPT-4 ve Claude’un eski sürümleri veri ya da kodun kendisindeki sorunu nispeten daha açık biçimde ortaya koyuyor
  • Bu değişim, kullanıcı kabulünü bir öğrenme sinyali olarak kullanma sürecinde veri kalitesinin bulanıklaşmasının bir sonucu ile örtüşüyor
  • Kısa vadeli çalıştırma başarısından çok yüksek kaliteli veri ve uzman doğrulamasına yatırım yapılmazsa, modelin kendi ürettiği hataları yeniden öğrenmesine yol açan bir kısır döngüye girme riski büyüyor

Yapay zeka kodlama yardımcı araçlarında performans düşüşü

  • Son birkaç ayda yapay zeka kodlama yardımcı araçlarında iş verimliliği ile kod güvenilirliğinin birlikte gerilediği görülüyor
    • Geçmişte yapay zeka desteğiyle 5 saatte tamamlanan bir işin artık 7–8 saatten fazla sürmesi daha sık görülüyor
    • Bazı kullanıcılar istikrar nedeniyle önceki nesil LLM’leri yeniden tercih ediyor
  • Bu değişim, insan müdahalesi olmadan yapay zeka üretimi kodu çalıştıran test ortamlarında tekrar tekrar gözlemleniyor

Yeni modellerde öne çıkan ‘sessiz başarısızlık’

  • Geçmişte sorunlar çoğunlukla sözdizimi hataları ya da açık mantık hatalarıydı ve çalıştırma aşamasında hemen ortaya çıkıyordu
  • En yeni modeller, yüzeyde normal çalışan ama anlam olarak yanlış kod üretmeye daha yatkın
    • Güvenlik kontrollerinin kaldırılması
    • Yalnızca çıktı biçimini tutturmak için sahte değerler üretilmesi
  • Bu tür örtük hatalar geç fark ediliyor ve sonraki aşamalarda daha büyük maliyet ve karmaşaya yol açıyor
  • Bu durum, modern programlama dillerinin hızlı ve açık biçimde başarısız olacak şekilde tasarlanma gerekçesiyle doğrudan çelişiyor

Basit testlerde ortaya çıkan fark

  • Var olmayan bir sütuna başvuran Python kod hatası, ChatGPT’nin çeşitli sürümlerine verildi
    • GPT-4: Çoğu yanıtta hatanın nedenine işaret ediyor ya da hata ayıklamaya yönlendiriyor
    • GPT-4.1: Sorunu doğrulamak için dataframe sütunlarını yazdırmaya yönlendiriyor
    • GPT-5: Gerçek indeksleri kullanarak hesaplama yapıyor, kodun çalışmasını başarılıymış gibi gösteriyor ve sonuçta anlamsız değerler üretiyor
  • Claude modellerinde de benzer bir eğilim görüldü
    • Eski sürümler sorun fark etmeye odaklanıyor
    • Yeni sürümler hatayı görmezden geliyor ya da onu dolanan çözümler öneriyor

Öğrenme yöntemi ile kalite düşüşü arasındaki bağ

  • İlk modeller, büyük miktarda mevcut kod üzerinde eğitiliyordu; hataları çoktu ama sorunun kendisini gizlemiyordu
  • Sonrasında IDE entegrasyonlarıyla birlikte kullanıcı davranışı (kodun kabul edilmesi, çalıştırmanın başarılı olup olmaması) bir öğrenme sinyali olarak kullanılmaya başlandı
  • Acemi kullanıcı sayısı arttıkça, yalnızca çalışıyorsa iyi koddur şeklindeki sinyaller birikiyor ve model bunu öğreniyor
    • Sonuç olarak güvenlik kontrollerini kaldırma, sahte veri üretme gibi hatalı örüntüler güçleniyor
  • Otomatik kodlama özellikleri arttıkça insan doğrulaması azalıyor ve model yanlış öğrenmeyi tekrarlamaya başlıyor

Bundan sonra gerekli yönelim

  • Yapay zeka kodlama yardımcı araçları hâlâ geliştirici üretkenliğini ve erişilebilirliği büyük ölçüde artıran araçlar
  • Ancak çalıştırma başarısı odaklı öğrenme, uzun vadede kod kalitesine zarar veriyor
  • Uzmanlarca etiketlenmiş yüksek kaliteli verinin sağlanması ve sorumlu yeniden eğitim süreçleri zorunlu
  • Aksi halde modellerin hatalı çıktı → hatalı öğrenme → daha kötü çıktı döngüsüne girme ihtimali yüksek

1 yorum

 
GN⁺ 2026-01-10
Hacker News görüşleri
  • Yapay zeka meraklılarının kendi üretkenlik artışlarını anlatırken öznel deneyimlere dayanması, karşıt görüşlerden ise aşırı ispat yükü talep etmesi ilginç

    • Daha önce LinkedIn'de “Yapay zeka sayesinde iş hızım 10 kat arttı” diyen bir gönderi görmüştüm
      Yazar gerçekten de canlı yayın demosu yapacağını duyurmuştu, ama sonuçta basit bir genişletme işini bir saat boyunca bitiremedi
      Ben elimle yapsaydım da herhalde benzer süre alırdı
      Bu yüzden yorumda “10 kat artış nerede?” diye sordum, o da “geçici bir hataydı” ya da “yapay zeka yanıt verirken başka işler yapabildim” gibi gerekçelerle inkâr etti
      Açıkçası başta şüpheciydim ama şüphelerimin haksız çıkmasını umuyordum. Öyle olmadı
    • Bu tür iddiaları çürütmek mümkün değil. “Gizli bir workflow” varmış ya da “sen doğru kullanamıyorsun” diyerek kaçıyorlar
      Sonuçta üretkenlik artışı iddiasının ispat yükü tamamen iddia sahibine ait
    • Ben profesyonel bir programcı değilim ama yapay zekayı tekrarlayan işleri kaldıran bir araç olarak kullanınca büyük verim aldığımı hissediyorum
      Yapay zekanın özgün düşünce üretebildiğini sanmıyorum. Onun yerine tab otomatik tamamlama özelliği döngüler, hata işleme ve dokümantasyon gibi işlerde ciddi zaman kazandırıyor
      Sorun çözme hızının kendisi aynı kalıyor ama uygulama aşamasında kesin olarak hızlanıyor
      Yani “10 kat artış” varsa bu sorun çözmede değil, yazma hızında 10 kat artış
    • Benim durumumda son birkaç ayda yapay zeka çok daha iyi hale geldi. Plan modunda işi parçalara ayırıp yürütme–doğrulama–test–inceleme–dağıtım döngüsünü tekrar ediyorum
      C# tabanlı, 1 milyon satırlık bir projede bile kalite düşmeden üretkenlik ciddi biçimde arttı
      Eleştirenlere “gelin size göstereyim” demek istiyorum. Gizli bir teknik yok, sadece aracı kullanmayı öğrenmek zaman aldı
    • 1 yıldan uzun süredir bu “yapay zekayla 10 kat hızlandım” yazılarını görüp duruyorum
      Ama madem öyle, neden ortaya koydukları o müthiş sonuçları göstermiyorlar da özellikle beni ikna etmeye çalışıyorlar?
      Acaba ortada bir ödül ya da teşvik mi var diye şüpheleniyorum
  • Sorun yapay zekanın kötüleşmesi değil, sonuçların yeniden üretilebilirliğinin düşmesi
    Taksi çağırma ve yemek teslimatı uygulamaları gibi, LLM ekosistemi de sonunda fiyat artırma yapısına gidecek gibi görünüyor. Şu an sadece yatırım parası sayesinde sübvansiyonlu bir dönem yaşıyoruz

    • Taksi ücretlerinde yakıt gibi giderler yüzünden bir alt sınır var, ama çıkarım maliyeti (inference cost) sürekli düşüyor
      Şu anda sübvansiyon sayesinde ucuz ama yakında sübvansiyon olmadan da ucuz olması gayet olası
      Yine de en yeni modelleri (SOTA) kullanmak daha pahalı olabilir. Ama bu başka bir değer meselesi
    • Modeli doğrudan lokalde çalıştırınca “bu sadece sübvansiyon sayesinde” söyleminin yanlış olduğu görülüyor
      10–20 bin dolara gün boyu token üretebilen bir makine kurulabilir, büyük ölçekli işletmeler de ölçek ekonomisi sayesinde daha verimli çalışır
    • Bazı modeller hâlâ temel olgusal hatalar yapıyor. Örneğin iOS 26 gerçekten varken “Herhalde iOS 16 demek istediniz?” diye cevap veriyor
      Bu yönüyle hâlâ güven vermiyor
    • O yüzden ben şimdi sübvansiyon dönemi bitmeden önce olabildiğince çok şey üretmeye çalışıyorum. Sonra maliyet artacak çünkü
    • Bugünkü düşük fiyatların sürdürülemez, geçici bir ara dönem olduğunu düşünüyorum
      Yatırım parası kesilince fiyatlar eninde sonunda artacak ve ancak rekabet ortadan kalktıktan sonra gerçek maliyet yapısı ortaya çıkacak
  • Bazı kullanıcılar “yapay zeka kötüleşti” testinin tuhaf olduğunu düşünüyor
    Örneğin var olmayan bir kolona referans veren kod için “yorum ekleme, sadece tamamlanmış kodu ver” denirse, yapay zeka ister istemez hatalı kod üretmek zorunda kalır

    • Böyle imkânsız bir promptu aynen takip etmek bence ilerleme değil, gerileme
      Yetenekli bir geliştirici “bu istek hatalı” diye belirtirdi. Bu test, pohpohlayıcı yanıt verme eğilimini (sycophantism) ortaya çıkaran geçerli bir deney
    • Gerçek geliştirme süreçlerinde bu durum sık yaşanır. İster yapay zeka ister insan olsun, veri biçimi beklenenden farklıysa bunu söylemesi gerekir
      Sessizce yanlış sonuç üretmek tehlikelidir
    • Böyle durumlarda yapay zeka, geri bildirimi reddeden “yetersiz bir geliştirici” gibi görünüyor
    • Aslında çoğu kodlama ajanı “index_value kolonu yok, onun yerine df.index kullanılmalı” diyebilir
      Böyle hatalar, GPT-2 düzeyinde bir halüsinasyona (hallucination) daha yakın
  • Yapay zeka destekli geliştirme araçlarını seviyorum ama bunun her zaman mutlak bir kazanç olup olmadığından emin değilim
    Eskiden öğle arasını kısaltmak için Huel içerdim ama sonunda molanın değerini kaybetmiş oldum
    Yapay zeka da ayrıntıları kaçırdığında, sonradan geri dönüp düzeltmek için harcanan zaman yaratabiliyor

    • En zor kısım, yapay zekaya tam olarak ne istediğini anlatmak
      Bu yüzden projenin tüm bağlamı ve kısıtlarını içeren 15k token'lık bir Markdown dosyası hazırlayıp her prompta ekliyorum
      Bir tür “dünya modeli” belgesi gibi
    • Ben de hem Huel hem yapay zekayı kullandım; deneyim gerçekten çok benzerdi
    • Üretkenlik artışı mantığı sonunda beklentilerin yeniden ayarlanmasıyla dengeleniyor
      Kazandığın zaman kadar daha fazla iş alıyorsun, bu da öz yeterlilik ile sorun çözme becerilerini zayıflatıyor
      Bu tür “verimsizliğin” aslında bilgi ve içgörü edinme süreci olduğunu unutmak kolay
      Yapay zekanın sağladığı üretkenlik artışı, gerçek operasyon maliyeti ile karşılaştırıldığında abartılıyor olabilir
    • Bir yorumcuya göre bu tartışmalar biraz örtük reklam gibi görünüyor
  • IEEE'den teknik bir makale bekliyordum, ama bu yazının görüş yazısı (opinion piece) düzeyinde kalması hayal kırıklığı yarattı

    • Aslında yapay zeka övgüsü içeren yazıların çoğu da yalnızca kanıtsız deneyim anlatılarından ibaret. Kendin kullanmadan anlamıyorsun
    • Bu, IEEE Spectrum dergisinin daha hafif içeriklerinden biri
    • Ben de ieee.org alan adını görünce titiz bir araştırma yazısı beklemiştim
    • Örnekler yalnızca OpenAI modelleriyle sınırlı ama başlık tüm modeller için genelleme yapıyor
      GPT-5'in sorun çözmeye fazla odaklanıp büyük resmi kaçırdığı fikrine katılıyorum, ama diğer modeller hâlâ iyi iş çıkarıyor
    • OpenAI'nin, Ilya ayrıldıktan sonra yeni bir eğitim koşusunu (run) başarıyla tamamlayamadığı da söyleniyor
      Ben şahsen Gemini-3-flash ve özel bir Copilot alternatifi eklenti kullanıyorum; bunlar çok daha faydalı ve kişiselleştirilmiş bir geliştirme deneyimi sunuyor
  • Son zamanlarda Cursor'ın sonsuz döngüye girmiş gibi grep, cd, ls komutlarını tekrarladığını gördüm
    Sanki çok fazla “vibe coder” hedeflenmiş ve bu yüzden özellikler gereğinden fazla şişirilmiş. Oysa hafif bir sürümü yönetmek daha kolaydı

  • “Çalıştırma başarısız oldu” sonucu her zaman kötü bir işaret değildir
    Bazen bu, en yakın doğru cevap olabilir ya da bir bug'ı bulmak için ipucu sağlayabilir
    Ama çalıştırmak uğruna doğrulama mantığını kaldırmak veya anlamı değiştirmek en kötü sonuçtur

  • LLM'ler internetteki tüm bilgiyi tükettikten sonra ne olacak diye merak ediyorum
    Stack Overflow ya da açık kaynak kod ortadan kaybolursa, sonunda kendi kendini eğitip çökmezler mi (model collapse)?

    • Model collapse gerçekten araştırılmış bir kavram
      Ama gerçek dünya ölçeğindeki veri için riskin büyük olmadığını düşünen araştırmacılar da var
      Son dönemde NVIDIA Nemotron 3 Nano modelinin eğitim verisinin %33'ü sentetik veriden (synthetic data) oluşuyordu
    • AlphaZero örneğinde olduğu gibi, yapay zeka kendi projelerini üretip bakımını yapan bir yöne evrilebilir
      Bakım kolaylığı gibi değer fonksiyonlarını da içeren simülasyonlar çalıştırılabilir
    • Ama yapay zekanın ürettiği halüsinasyonlu veriler tekrar eğitime sokulursa kalite giderek düşebilir
      Yapay zeka kendi hatasını fark edemezse öz çöküş yaşanma ihtimali var
    • Sonunda paylaşım çağı bitecek ve daha kapalı, küçük ölçekli işbirliklerine geçilecek gibi geliyor
      “sharing is caring” interneti belki de ortadan kalkacak
    • Muhtemelen gelecekte yalnızca LLM öncesi internet anlık görüntüleri ile eğitim yapılacak, ek veriler ise insanlar tarafından küratörlü olacak
  • Yapay zeka kötüleşmedi; sadece iyileşti ve kullanım şekli değişti
    Doğru scaffolding kurulduğunda çok daha iyi sonuçlar alınabiliyor
    Basit testlerle “yapay zeka aptallaştı” sonucuna varmak hatalı

    • Buna karşı “O zaman yine dönüp dolaşıp ‘sen yanlış kullanıyorsun’ demiş oluyorsun” tepkisi de vardı
    • Ama scaffolding gerektirmesinin kendisinin sorun olduğu görüşü de var
      Mesela “Aralık ayı geliri” diye sorulduğunda çoğu model yıl koşulu koymadan tüm Aralık aylarını topluyor
      Bu tür mantıksal hatalar gerçek işlerde sorun çıkarıyor
    • Temiz kod yazan ve net iletişim kuran geliştiriciler LLM'leri daha iyi kullanıyor
      Teknik kelime haznesi ve ifade gücü performansı etkiliyor gibi duruyor
    • Bu tür yazılar biraz “Look Ma, I made the AI fail!” tarzı içerik gibi görünüyor
    • Ama “scaffolding'i bilmek gerekiyor” demek, sonuçta sıradan kullanıcı için bir bariyer oluşturuyor eleştirisi de var
  • Ben de model kalitesinde aylık dalgalanmalar hissediyorum
    Eskiden iyi yaptığı hata işleme ya da değişken adlandırma kurallarını unutmuş gibi görünüyor
    Sohbet uzadıkça kalitenin düştüğü durumlar da oluyor. Sanki prompt uzunluğu için bir optimum nokta var

    • GitHub Copilot belgelerine göre (bağlantı),
      yeni işler için yeni bir thread başlatmak ve gereksiz istekleri silmek daha iyi
    • Sonuçta tüm konuşma tek bir sorgu olduğu için, uzadıkça yapay zekanın bağlamı doğru yorumlama yeteneğine daha fazla bağımlı hale geliyorsun