SWE-bench Verified neden artık frontier kodlama yeteneğini ölçemiyor

(openai.com)

4 puan yazan GN⁺ 2 일 전 | 1 yorum | WhatsApp'ta paylaş

Otonom yazılım mühendisliği görevlerinin başlıca göstergelerinden biri olan SWE-bench Verified, frontier model yeteneğini ölçmek için artık büyük ölçüde yetersiz kalıyor
Son dönemde en iyi performanstaki artışın %74,9'dan %80,9'a sınırlı kalmasıyla, kalan başarısızlıkların model sınırlarından mı yoksa veri kümesi kusurlarından mı kaynaklandığını ayırt etmek zorlaştı
İncelenen 138 problemden %59,4'ünde test tasarımında veya problem açıklamasında ciddi kusurlar tespit edildi; kısıtlayıcı testler ve aşırı geniş testler, işlevsel olarak doğru çözümleri bile eleyebiliyor
Açık veri ve kod tabanlarına dayanan bir değerlendirme olduğu için eğitim verisi kirlenmesini önlemek zordu; bazı modeller yalnızca görev açıklaması ya da kimliğiyle gold patch'i neredeyse aynen yeniden üretebildi
Bu nedenle SWE-bench Verified skorlarının raporlanması durduruldu ve değerlendirme odağı, kirlenmeden daha az etkilenen SWE-bench Pro ile özel benchmark'lara kaydı

Benchmark artık neden ölçemiyor

SWE-bench Verified, otonom yazılım mühendisliği görevlerinde model performansını ölçmek için yaygın biçimde kullanılan standart bir göstergeydi; ancak mevcut düzeydeki frontier model yeteneklerini ölçmek için artık ciddi ölçüde yetersiz
Son 6 ayda en iyi performanstaki artışın 74.9%'dan 80.9%'a sınırlı kalması, geriye kalan başarısızlıkların model sınırlarından mı yoksa veri kümesi kusurlarından mı kaynaklandığını ayırt etmeyi zorlaştırdı
Yeni analiz, kusurlu testler ile eğitim verisi kirlenmesini temel sorunlar olarak ortaya koyuyor; böylece skorlar, gerçek kodlama becerisinden çok benchmark'a maruz kalma düzeyini yansıtır hale geliyor
Bu yüzden OpenAI, SWE-bench Verified skorlarını raporlamayı durdurdu ve diğer model geliştiricilerine de aynı adımı tavsiye ediyor
Alternatif olarak kirlenmeden daha az etkilenen SWE-bench Pro öneriliyor; ayrıca yeni, kirlenmemiş değerlendirme ölçütleri de geliştiriliyor

Arka plan

Orijinal SWE-bench, 2023'te yayımlandı ve 12 açık kaynaklı Python deposundaki çözülmüş GitHub issue'ları ile bunlara karşılık gelen PR'lerin eşleştirilmesiyle oluşturuldu
Her problemde, yalnızca düzeltme öncesi kod tabanı ve issue metni verilir; modelden kod değişikliği üretmesi beklenir ve değişiklik uygulandıktan sonra tüm testlerin geçmesi başarı ölçütüdür
- Buna, düzeltme öncesinde başarısız olup doğru düzeltmeden sonra geçen testler dahildir
- Mevcut işlevlerin bozulup bozulmadığını doğrulayan regresyon testleri de birlikte yer alır
Orijinal değerlendirmede, doğru düzeltmeleri bile reddeden aşırı derecede spesifik testler, birden fazla yoruma açık yetersiz spesifikasyonlar ve ortam farklarına bağlı olarak başarısız olan testler gibi sorunlar vardı
Bunu azaltmak için 2024'te SWE-bench Verified oluşturuldu ve 1.699 problem uzman incelemesinden geçirilerek 500 problemlik bir set hazırlandı
- Her problem, 3 uzman tarafından bağımsız olarak incelendi

Test tasarım kusurları

OpenAI o3'ün 64 bağımsız çalıştırmada da tutarlı biçimde çözemediği 138 problem denetim kapsamına alındı ve her vaka en az 6 deneyimli yazılım mühendisi tarafından bağımsız olarak incelendi
Sonuçta 138 problemin %59,4'ünde, test tasarımında veya problem açıklamasında ciddi kusurlar bulundu; bu da görevleri güçlü model ya da insanlar için bile çok zor veya imkânsız hale getiriyordu
Denetlenen görevlerin %35,5'i, belirli uygulama ayrıntılarını zorunlu kılan kısıtlayıcı testler içeriyordu
- Bu durum, işlevsel olarak doğru olan birden fazla çözümün de geçersiz sayılmasına yol açabiliyor
Denetlenen görevlerin %18,8'i, problem açıklamasında yer almayan ek işlevleri de talep eden geniş kapsamlı testler içeriyordu
Kalan %5,1'de ise bu iki kategoriye açıkça girmeyen başka sorunlar vardı
Kısıtlayıcı test vakaları
- pylint-dev__pylint-4551 örneğinde, PR testi get_annotation fonksiyonunu doğrudan import ediyor; ancak bu fonksiyon adı problem spesifikasyonunda yer almıyor
- Bu nedenle problem işlevsel olarak doğru çözüldüğünde bile, o belirli fonksiyon adı uygulanmadıysa test import hatasıyla başarısız olabiliyor
Geniş kapsamlı test vakaları
- sympy__sympy-18199, gerçekte #17373, #17377 ve #18212 olmak üzere üç issue'yu birlikte düzelten bir PR'den alınmıştı
- Ancak SWE-bench Verified görev açıklaması yalnızca #18212'yi kapsadığı için, açıklamaya uygun bir uygulama yapılsa bile diğer iki issue'yu kontrol eden testlerde başarısız olunabiliyor

Kirlenme sorunu

SWE-bench Verified, ilgili depo kod tabanları ve sürüm notlarının tümü açık ve yaygın biçimde kullanılıp tartışıldığı için veri kirlenmesini önlemek zor
OpenAI, kendi modellerinde de kirlenme işaretleri tespit etti; buna, neredeyse çözülmesi imkânsız görülen 31 görevin GPT‑5.2 tarafından çözülmesi de dahil
django__django-14725 örneğinde testler, problem spesifikasyonunda olmayan edit_only parametresini gerektiriyor; GPT‑5.2 ise akıl yürütme sürecinde bu parametrenin Django 4.1'de tanıtıldığını bile doğru şekilde belirtiyor
OpenAI, kirlenmenin ciddiyetini değerlendirmek için otomatik bir red-team test ortamı kurdu
- Her SWE-bench Verified problemi için GPT‑5, GPT‑5.2‑Chat, Claude Opus 4.5 ve Gemini 3 Flash Preview modellerindeki kirlenme olup olmadığını araştırdı
- GPT‑5'e görev kimliği, açıklama, gold patch ve PR testleri verildi; toplam 15 tur boyunca prompt'ları ve yönlendirme stratejilerini değiştirmesine izin verildi
- Her turun ardından bir değerlendirme modeli, yeni ortaya çıkan göreve özgü bilgi miktarına göre kirlenmenin ciddiyetini yok~güçlü olarak sınıflandırdı
- Güçlü kirlenme vakaları, ek bir değerlendirme modeliyle aşırı bilgi sızıntısı açısından doğrulandı ve nihai olarak doğrudan incelendi

Modeller bazında ciddi kirlenme örnekleri

GPT‑5.2
- django__django-11451 örneğinde, kısa bir görev açıklaması parçacığıyla bile tam doğru gold patch çıktı olarak üretildi
- ModelBackend.authenticate() içinde username is None or password is None olduğunda erken dönüş yapan koşulun yanı sıra dosya yolu ve yöntem adı da yeniden üretildi
Claude Opus 4.5
- astropy__astropy-13236 örneğinde, düzeltilecek dosya yolu astropy/table/table.py, _convert_data_to_col metodu ve diff içindeki satır içi yorumlar bile harfi harfine alıntılandı
- Yapılandırılmış ndarray'i NdarrayMixin'e otomatik dönüştüren 4 satırlık kod da eksiksiz biçimde yeniden kuruldu
Gemini 3 Flash
- django__django-11099 örneğinde, görev kimliği dışında neredeyse hiç ek bilgi olmamasına rağmen görev açıklaması ve gold patch'in tamamı harfi harfine üretildi
- Kullanıcı adı doğrulama regex'inin r'^[\\w.@+-]+$' biçiminden r'^[\\w.@+-]+\\Z' biçimine değişmesi ve satır bazlı diff bile yeniden üretildi

Temel dersler

Kamuya açık kaynaklardan türetilen benchmark'lar kirlenme riski taşır ve eğitim verisine maruz kalma, skorları fark edilmeden şişirebilir
Benchmark'lar herkese açık crawl verilerinden oluşturuluyorsa, model geliştiricileri kirlenme olup olmadığını kontrol eden ek testler yapmalıdır
Açık benchmark'lar ve çözümleri de sonuçta eğitim verisine dahil olabilir; bu nedenle hem veri kümesi dağıtım biçiminde hem de eğitim verisi filtrelemesinde özel dikkat gerekir
- Parola koruması gibi dağıtım kontrol yöntemlerinden söz ediliyor
- Canary string'lere sıkı uyum gibi filtreleme yöntemleri de anılıyor
Otomatik puanlama, önemsiz uygulama farklarından etkilenmeyecek ama aynı zamanda hileli kısayolları da engelleyecek kadar sağlam olmalı; bunu aynı anda başarmak ise son derece zor
Bu tür kusurları ortaya çıkarmak için birden fazla turda büyük ölçekli manuel etiketleme gerekti

Bundan sonraki değerlendirme yönü

Son birkaç ayda OpenAI, SWE-bench Pro açık değerlendirme verisi sonuçlarını raporlamaya karar verdi ve diğer model geliştiricilerinin de aynı adımı atmasını tavsiye ediyor
SWE-bench Pro da kusursuz değil, ancak deneysel olarak SWE-bench Verified'a göre kirlenmeden daha az etkileniyor
- İç kirlenme doğrulama pipeline'ında bazı kirlenme vakaları bulundu
- Ancak bunlar SWE-bench Verified'a kıyasla çok daha seyrek ve daha az ciddiydi
- Hiçbir model, harfi harfine tamamen aynı gold patch'i üretemedi
Gelecekte özgün ve özel olarak yazılmış benchmark'lara yatırım yapılmaya devam edilecek
GDPVal içinde alan uzmanları görevleri özel olarak yazıyor ve eğitimli değerlendiriciler çözümleri bütüncül biçimde puanlıyor
Bu yaklaşım kaynak yoğun olsa da, gerçek yetenek gelişimini ölçmek için giderek daha vazgeçilmez hale geliyor

1 yorum

GN⁺ 2 일 전

Hacker News yorumları

SWE-bench ortak yapımcılarından biri olarak özetleyeyim: SWE-bench Verified artık %93,9 ile neredeyse doygunluğa ulaştı ve Anthropic tebriki hak ediyor
Yine de bu seviyeye henüz ulaşamayan ekiplerin hâlâ ilerleme alanı var
SWE-bench Multilingual ve SWE-bench Multimodal ise henüz doygun değil; Multimodal’ı gelecek ay içinde açık kaynak olarak yayımlamayı planlıyoruz
Sonuçta tüm benchmark’lar eninde sonunda doygunluğa ulaşıyor; bu yüzden bir sonraki nesil benchmark’ları da üretmeye devam ediyoruz ve https://codeclash.ai/ ile https://algotune.io/ gibi örnekler şimdiden ortaya çıktı
- Doygunluğa ulaştı diye SWE-bench Verified artık kullanılmasın demiyorum
  Asıl mesele, testlerin önemli bir kısmının hatalı olması ve bu yüzden gerçekte doğru olan çözümlerin bile yanlış diye puanlanabilmesi
  Ayrıca frontier modellerin, sorunların temelini oluşturan PR’ları zaten okuyup ezberlemiş olma ihtimali yüksek
  Hatta bazı sorular, çözümü ezberlememişseniz fiilen çözülemez durumda; örneğin testten geçmek için soruda hiç geçmeyen belirli bir helper fonksiyon adını aynen üretmeniz gereken durumlar var
  Frontier modellerin bunları geçebilmesinin sebebi de büyük ihtimalle o ada ihtiyaç olduğunu hatırlamaları
  Bir sonraki nesil benchmark’lar bunu çözmezse, doygunluk olup olmamasından bağımsız olarak aynı sorun sürecek
- Makaledeki anlatıma göre %27,6’lık alt küme denetlenmiş ve bunun %59,4’ünde işlevsel olarak doğru gönderimleri reddeden hatalı testler olduğu söylenmiş
  Hesaplayınca 0.191 * 0.594 > 1 - 0.936 çıkıyor; dolayısıyla ya denetlenen alt küme temsili değildi ya da Anthropic yüksek puanı biraz şüpheli bir şekilde aldı diye düşündürüyor
- SPECint ve SPECfp de tam olarak aynı döngüden geçti
  Benchmark oluşturuldu, doygunlaştı, terk edildi, yenisiyle değiştirildi ve bu tekrarlandı
  Sonunda bu treadmill’in kendisi bir ürün gibi işlemeye başlıyor; çözümünü bilmiyorum ama tarihin tekerrürü gibi geliyor
- Bu arada alternatif olarak https://SWE-rebench.com da var gibi görünüyor
  Benim anladığım kadarıyla SWE-bench üzerine ilginç bir varyasyon
- SWE-bench’in kendisinin harika olduğunu düşünüyorum
  Şu anda bu kadar sert incelenmesi de yaygın biçimde benimsenmiş ve başarılı olmuş olmasının doğal bir sonucu gibi duruyor
Yeni çıkan herhangi bir benchmark’ın çok hızlı biçimde eğitim verisine gireceği ve neredeyse anında eskiyeceği fazlasıyla açık görünüyor
Sırf pazarlama için bile belirli bir benchmark’a göre optimizasyon yapma teşviki hep olacak; eğitim cutoff’u olsa bile genelde yayımlanma zamanı ile arasında yalnızca 3-6 ay fark kalıyor
Bu yüzden coding benchmark’larındaki asıl zorluk, mevcut benchmark’ları yeniden kullanmadan, eğitim verisinde kesinlikle bulunmadığı garanti edilen tamamen yeni problemler üretmek
Bu açıdan bakınca modelin çıkışından önce hazırlanmış benchmark’ların o modelin performansını temsil ettiğini söylemek zor; küçük iyileştirmeleri pazarlamak için veriyi içeri sızdırmaya yönelik finansal teşvik de çok büyük
Dürüst olmak gerekirse pazarlama materyallerinden benchmark’ları tamamen çıkarmak ve modelin kendisinin konuşmasına, topluluğun da karar vermesine izin vermek gerekir; ama işin içinde para olan şirketlerin bunu asla yapacağını sanmıyorum
- Bu yüzden Zork bench’i yaptım
  Metin tabanlı macera oyunu Zork, LLM eğitim verisinin içinde yer alıyor ve deterministik olduğu için normalde kolayca oynanıp bitirilmesi gerekir
  Ama pratikte öyle olmuyor; Zork bench de bunun nedenini anlamayı hedefliyor
  https://github.com/mnky9800n/zork-bench
- “Topluluk karar versin” denince, önce hangi topluluktan söz ettiğimiz bile belirsiz
  İçinde 10 yılı aşkın süredir LLM kullanan uzmanlar da var, hayatında kod yazmamış vibe coder’lar da; internette GPT 5.5’i kurtarıcı gibi görenler de var, 5.4’ten daha aptal bulanlar da
  Ben de her yeni model için kendi gizli benchmark’larımı hazırlayacak vakte sahip değilim; o yüzden genelde private veya semi-private benchmark’lara dayanarak ne kadar iyileşme olduğunu tahmin edip sonra abone oluyor ve bizzat deniyorum
  En azından Reddit’teki rastgele kullanıcıların ya da botların yarattığı havadan biraz daha güvenilir
- Coding benchmark’larını yeniden anlamlı kılmanın kolay bir yolu, model bağlamına önce 200 bin token gürültü veya alakasız içerik doldurmak olabilir
  Ya da aynı bağlam içinde testleri ardışık biçimde çalıştırıp modelin ne kadar dayanabildiğini, ne zaman bağlamı çözmeye başladığını görmek
  Şimdiki benchmark’lar hep greenfield tarzı problemler; oysa gerçekte istediğimiz şey bozulmuş bir bağlamla başa çıkabilen modeller
- Hâlâ özün bir alt katmanına baktığımızı düşünüyorum
  Mevcut darboğaz yeteneklerin kendisi değil, modelin prodüksiyonda neyi görebildiği
  Bağlam yapısı, retrieval kalitesi, tool use ve çok turlu durumda state’i birleştirme becerisi önemli; SWE-bench’te ise bunların neredeyse hiçbiri yok
  SWE-bench bir one-shot problem seti gibi görünüyor ama frontier coding çalışması artık böyle bir biçimde değil
  Veri kirlenmesi hiç olmasa ve kusursuz bir benchmark yapılsa bile, çoğu muhtemelen yine yanlış ekseni ölçüyor olacak
  İzole problemler açısından zaten insan yüksek lisans öğrencisi seviyesine ulaştık; asıl kaldıraç, bunun daha büyük sistemlerin içinde nasıl çalıştığında
  Ama bu da neredeyse zevk veya tercih meselesine dönüştüğü için nesnel olarak ölçmek son derece zor
- Çevrimiçi toplulukların kendisi fazlasıyla astroturfing’e maruz kalmış durumda
  Anthropic, influencer’lara para verip Claude Code’u öne çıkarıyor ve çok sayıda bot da kullanıyor gibi; bu yüzden çevrimiçi uzlaşıya güvenmek zor
  Herkes iyi niyetle davransa bile alan farkları yüzünden algı çok değişebilir
  Örneğin yapay zeka frontend’de veya yaygın kullanılan kütüphanelerde çok daha iyi olabilir
  Sonunda model değerlendirmesi için bizzat kullanmaktan başka yol kalmıyor; ama bunu her yeni modelde tekrarlamak hem çok yorucu hem de tek başına yeterince kapsamlı değil
Benchmark/eval zaten doğası gereği zor; işin içine sektör ölçeğinde sistemi oynama teşviki girince daha da zorlaşıyor
ELT-Bench de yakın tarihli bir örnek; veri mühendisliği iş yükleri için yaklaşık bir yıl önce çıkan ilk ciddi benchmark’tı
Ama birkaç gün önce, orijinal yazarlarından birinin de yer aldığı devam makalesinde benchmark’ın kendisi denetlendi ve yapısal sorunlar nedeniyle sonuçların yanlı olduğu ortaya kondu
Makale burada: https://arxiv.org/abs/2603.29399
Aslında bu yeni bir şey değil; daha önceki sektörler bunu daha küçük ölçekte zaten yaşadı
Bugünkü durumun veritabanı benchmarketing savaşlarına ne kadar benzediğine dair bir yazı da var
https://www.typedef.ai/blog/from-benchmarketing-to-benchmaxx...
- Sonuçta en zor mesele, benchmark’ı eğitim verisinden ayırmak
  BrowseComp plus ve diğer deep research veri kümelerinde de benzer bir sorun görülüyor; bu ille de frontier lab’lerin hile yapmasından değil, tüm web’i eğittikleri için doğal olarak ortaya çıkıyor
  Yeni veri kümeleri sürekli ve kalıcı biçimde üretilmek zorunda
- Veritabanı benchmark’ları da benzer bir aileden
  Bunu bir classifier yaparken bizzat gördüm: bazı görevlerde model, insanlardan tutarlı biçimde daha iyi hale geliyor ve bu durumda precision’ı ölçmek artık mümkün olmuyor
  Sonra o classifier kendi başına state-of-the-art benchmark’a dönüşüyor ve kendisi dışında kıyaslayacak bir şey kalmıyor
  Kodlamaya göre daha az mantık, daha az sürekli muhakeme gerektiren karmaşık görevlerde bile bu oluyorsa, bir noktada ölçülmek istenen şeyden bağımsız olarak kalibre edilmiş benchmark’lar tamamen ortadan kalkabilir
- Acaba her ay yeni benchmark üretmek bu sorunu çözebilir mi diye merak ediyorum
Sonuçta çoğunlukla hak ettiğimiz benchmark’ları alıyor gibiyiz
SWE-bench’i geçen PR’ların önemli bir kısmı gerçekte merge edilmeyecek gibi duruyor: https://news.ycombinator.com/item?id=47341645
Ayrıca üst düzey modellerin SWE-bench puanları git history sızıntısı yüzünden çarpıtılmış olabilir: https://news.ycombinator.com/item?id=45214670
Belki de en üst düzey modellere benchmark’ı bizzat kendilerine hazırlatmak gerekir diye düşünüyorum
Şaka bir yana, benim umut bağladığım şey ARC-AGI-3; insan simülasyonunu denediğimde gerçekten ağır biçimde muhakemeye dayalı hissettirdi
Leaderboard burada: https://arcprize.org/leaderboard
Şu anda en iyi modellerin çoğu bile %5’i geçemiyor
- Burada hamle sayısını en aza indirmek önemli ve hiçbir harness’e izin verilmiyor; bu yüzden çıta çok yüksek
  Şu anda doğrulanmış en iyi model olan Claude Opus 4.6 bile ancak %0,45 civarında
  Yine de çok yeni olduğu için bir sonraki nesil modellerde epey gelişme bekliyorum
- En üst düzey modellere benchmark yaptırma fikri de tamamen saçma değil
  Eski bir modelin yeni modeli mülakata almasını, sonra ikisinin de veya üçüncü bir hakem modelin hangisinin daha zeki olduğuna karar vermesini sağlayıp seed’i değiştirerek bunu 100 kez tekrarlayabilirsiniz
  Her iki tarafın da yeni modelin kazandığını kabul ettiği oranı puan olarak almak mümkün olabilir
- Muhakeme ağırlığı yüksek benchmark’lar daha iyi bir yön gibi görünüyor
  Çünkü en zor suistimal edilenler onlar
- Yapay zekanın, yapay zekanın bile çözemeyeceği sorular yazıp yazamayacağını da merak ediyorum
  Düşününce biraz komik gerçekten
Daha iyi benchmark’ların nesnel puanlama, çok disiplinli kapsam ve ölçeklenebilirlik taşıması, ayrıca tek doğru cevaba dayanan yapılardan kaçınması gerekir
https://gertlabs.com üzerinde tasarladığımız şey de bu yönde ve genel olarak kod yazarak problem çözmeyle ilişkili olacak şekilde oluşturuldu
- Bu benchmark şimdiye kadar gördüğüm diğer sıralamalardan daha doğru hissettiriyor
  Benim deneyimime göre gpt 5.4/5.5 teknik olarak neredeyse kusursuz; sorun çıktığında genelde sebep girdinin belirsiz olması
  Hata düzeltme veya implementasyon sırasında çıkan sorunlarda da çoğu zaman kendi kendine toparlıyor ve işleri boşluk bırakmadan tamamlama eğiliminde
  Buna karşılık Opus’un teknik yetkinlik bakımından biraz fazla değerlendirildiğini düşünüyorum
  Güzel UX üretme konusunda tasarımcı/geliştirici sezgisi daha iyi ama işin doğrulanmasını yine hep gpt 5.5’e bırakıyorum
  En şaşırtıcı sonuç Xiao-Mi oldu; henüz kullanmadım ama bunu görünce denemeyi düşünüyorum
  Yapay zekadaki bu kaotik hız yarışında anlamlı bir referans ürettiğiniz için ekibi tebrik ederim
- Claude Code ailesinin C++ ve Java’da hâlâ diğer modellerin çok önünde olması, buna karşılık GPT 5.5’in Python ve JS gibi alanlarda daha yüksek görünmesi ilginç
  Bu, eğitim veri kümesindeki önyargıları ya da go-to-market odak farkını yansıtıyor olabilir; hatta Anthropic’in OpenAI’a kıyasla enterprise müşterilere daha fazla odaklanmasının sonucu da olabilir diye düşünüyorum
  Opus’u C++’ta kullanırken edindiğim izlenimle de örtüşüyor
  Yalnız C# sonuçları boş görünüyor; @gertlabs bunun için bir ETA var mı?
- Bu benchmark’a bakınca Deepseek V4 pro’nun Deepseek V4 flash’tan daha kötü olduğu görülüyor; bu epey ilginç bir sonuç
  Bunun neden böyle çıktığına dair yorum duymak isterim
Bu tür bir şeyin, organik ya da inorganik şekilde, eninde sonunda olması kaçınılmazdı
Kolayca, “benchmark’ta iyi görünsün yeter, dışarıda genellenmese de olur” yaklaşımına kayıyor
Benzer bir örnek olarak Graduate student descent de akla geliyor
https://sciencedryad.wordpress.com/2014/01/25/grad-student-d...
Geriye dönüp bakınca SWE-bench aslında baştan beri o kadar da olağanüstü olmayabilir
2025 boyunca modellerin iyi kod üretme oranı neredeyse hiç artmadı; daha çok otomatik testleri geçme becerileri gelişti demek daha doğru olabilir
https://entropicthoughts.com/no-swe-bench-improvement
- Kod kalitesinde hiç iyileşme olmadığını söylemeye katılmıyorum
  2025 Ocak’ta Claude 3.5 Sonnet, Gemini 1.5 Pro ve OpenAI tarafında GPT-4o öndeydi; o modelleri de bugünün frontier modellerini de kullanmış biri olarak, mevcut modellerin belirgin biçimde bir üst seviyeye çıktığını söyleyebilirim
- Bu yorum gayet doğru olabilir
  Model kalitesi durakladı gibi görünüyor ve yeni iyileştirme vektörleri bulmak hiç de kolay değil
  Şimdiye kadarki ilerlemeyi taşıyan model genişliği ölçekleme de sınırına yaklaşmış gibi; bunun ileride ne anlama geleceğini merak ediyorum
  Uzun vadede, yalnızca tooling ile çözülebilecek şeylerin de bir sınırı var
- Yine de otomatik test geçme oranındaki artış, kodlama verimliliği için devasa bir kaynak
  Anthropic’in on milyarlarca dolar değerlemeye ulaşmasının nedenlerinden biri de bu
  SWE-bench’in coding tarafında işe yaramasının sebebi, yazılım mühendisliğinde otomatik test üretme ve kullanma geleneği ile altyapısının çok güçlü olması
- Belki de bu yüzden son dönemde şirketlerin fiyatlandırması daha kısıtlayıcı ve daha pahalı hale geliyor
Makaledeki ifade bana şu anlama geliyor: modelin sıklıkla çözemediği %27,6’lık alt küme denetlendi ve bunun en az %59,4’ünde işlevsel olarak doğru gönderimleri bile reddeden hatalı testler bulundu
Eğer gerçekten buysa, şimdiye kadar problem ve doğru cevapların büyük bir bölümünün hatalı olduğu sonucuna varıyoruz; bu durumda bunun nasıl geçerli bir ölçüm sayıldığı ciddi bir soru işareti
Benchmark’ın nasıl oluşturulduğuna dair açıklamaları okuyunca standartların epey yüksek olduğu izlenimi oluşuyor; buna rağmen bu kadar kötü veri kalitesinin nasıl ortaya çıktığını anlamakta zorlanıyorum
Sorunu kendilerinin açığa çıkarması takdire değer ama yine de geriye çok fazla soru bırakıyor
- Bu, toplamın dörtte birinin hatalı olduğu anlamına gelmiyor; daha ziyade %27,6’lık alt kümenin %59,4’ünde hatalı testler olduğu anlamına geliyor gibi
  Ayrıca pratik nedenlerle hiçbir benchmark özünde sizin kullanım senaryonuzu ya da tüm kullanım senaryolarını temsil etmez
  Sadece içinde yer alan şeyleri ölçmekte geçerlidir; ne fazlası ne eksiği
  Açık benchmark’lara yönelik ekosistem takıntısını anlamakta zorlanmamın sebebi de bu
  Örneğin Qwen 3.5’in Benchmark X’te Qwen 2.5’ten %50 daha iyi olması, benim kullandığım görevlerde de %50 daha iyi olacağı anlamına neredeyse hiç gelmez
  Ben gerçek kullanımda modelin başarısız olduğu örneklerden yola çıkarak prompt’ları ayarlıyor ve sürekli özel benchmark’lar oluşturuyorum
  Yeni model güncellemelerinde benim benchmark’larımda genelde sadece %2-3 hareket olurken, açık benchmark’larda %30-40 artış diye pazarlanıyor; bu yüzden eğitim verisi kirlenmesi olmadığına inanmak zor
- ImageNet de dünyanın en ünlü veri kümelerinden biri ama içinde epey fazla yanlış etiketlenmiş görsel var
  Hatta uç durumda, daha yüksek puan almak için yanlış cevaba uyum sağlamanız gereken bölümler bile oluşabiliyor
  Sonuçta cevap, ML’nin bir şekilde çalışmaya meyilli bir alan olması; kusurlar olsa da şaşırtıcı derecede ileri gidebiliyor
  Aynı zamanda, başkalarının fark etmediği kusurları yakaladığınızda neden büyük sıçramalar elde edilebildiğini de açıklıyor
- Amaç hangi modelin daha iyi olduğunu ayırt etmekse, benchmark puanının gerçek performansla korelasyonlu olması yeterli olabilir
  Görevlerin büyük çoğunluğu doğru puanlanıyorsa yön hissi korunabilir
  Örneğin etiketlerin %49’u yanlış olan korkunç bir benchmark düşünün; eğer bir model sürekli doğruyu yapıp %51 alıyor, diğeri sürekli yanlışı yapıp %49 alıyorsa, sıralama yine de doğru kalır
  Çoğu makine öğrenimi benchmark’ında azımsanmayacak ölçüde yanlış etiket bulunur; ama amaç modelleri birbirinden ayırmaksa, kusursuz puanlama için harcanacak zamandan ziyade daha büyük bir veri kümesi toplamak genellikle daha faydalıdır
- Özetle, kabaca soruların %16’sında bir sorun olduğu sonucu çıkıyor

SWE-bench Verified neden artık frontier kodlama yeteneğini ölçemiyor

Benchmark artık neden ölçemiyor

Arka plan

Test tasarım kusurları

Kısıtlayıcı test vakaları

Geniş kapsamlı test vakaları

Kirlenme sorunu

Modeller bazında ciddi kirlenme örnekleri

GPT‑5.2

Claude Opus 4.5

Gemini 3 Flash

Temel dersler

Bundan sonraki değerlendirme yönü

İlgili okumalar

1 yorum

Hacker News yorumları