8 puan yazan GN⁺ 2026-02-06 | 2 yorum | WhatsApp'ta paylaş
  • 16 Claude ajanı, paralel iş birliğiyle Rust tabanlı bir C derleyicisini tamamladı ve Linux 6.9 çekirdeğini derleyebilecek seviyeye ulaştı
  • Yaklaşık 2.000 oturum ve 20 bin dolar maliyetle 100 bin satırlık kod üretildi; x86, ARM ve RISC-V mimarileri destekleniyor
  • Ajanlar, otomatik döngü harness'i üzerinden insan müdahalesi olmadan sürekli çalıştı; test, paralelleştirme ve rol paylaşımı yapısıyla verim artırıldı
  • Ortaya çıkan sonuç, GCC uyumluluğu ve yüksek test geçiş oranı gösterdi; ancak 16 bit x86 kod üretimi, bağlayıcı ve optimizasyon kalitesi gibi alanlar henüz tamamlanmış değil
  • Bu deney, otonom LLM ekiplerinin sınırlarını ve potansiyelini doğrulayan bir örnek oldu; bundan sonra tam otonom geliştirme ortamlarında güvenlik ve kalite yönetimi temel mesele olarak öne çıkıyor

Ajan ekibi tabanlı C derleyicisi projesine genel bakış

  • Birden fazla Claude örneği paralel biçimde birlikte çalışarak tek bir kod tabanı geliştirdi
    • İnsanların gerçek zamanlı müdahalesi olmadan otonom olarak kod yazma, test etme ve düzeltme döngüsü tekrarlandı
  • Hedef, Rust ile yazılmış bir C derleyicisini tamamlayıp Linux çekirdeğini doğrudan derlemekti
  • Toplam 16 ajan, yaklaşık 2.000 oturum, 200 milyon giriş tokenı ve 140 milyon çıkış tokenı kullanıldı
  • Sonuçta 100.000 satırlık bir derleyici ortaya çıktı; Linux 6.9 çekirdeği ve önemli açık kaynak projelerini (QEMU, FFmpeg, SQLite, Redis vb.) derleyebiliyor

Uzun süreli çalıştırma için Claude harness tasarımı

  • Mevcut Claude Code insan girdisi gerektiriyordu; ancak sonsuz döngü yapısına sahip otomatik bir çalıştırma harness'i ile otonom ilerleme mümkün oldu
    • Her iş tamamlandıktan hemen sonra bir sonraki görevi alan otomatik tekrar yapısı
    • Çalışma sırasında Claude'un yanlışlıkla pkill -9 bash çalıştırıp kendi sürecini sonlandırdığı bir örnek de yaşandı
  • Paralel çalışma yapısı, Docker konteynerleri ve Git senkronizasyonundan yararlandı
    • Her ajan /workspace içinde çalıştıktan sonra /upstream konumuna push yaptı
    • Metin dosyası tabanlı lock mekanizmasıyla iş çakışmaları önlendi
    • Merge çakışmaları Claude tarafından doğrudan çözüldü

Paralel Claude çalışma modeli

  • Paralel çalışmanın avantajı, eşzamanlı hata ayıklama ve rol ayrışması oldu
    • Bazı ajanlar kod yazarken, bazıları dokümantasyon, kalite yönetimi ve performans optimizasyonu üstlendi
  • Herhangi bir iletişim katmanı ya da merkezi koordinatör yoktu; her ajan bir sonraki görevi otonom olarak seçti
  • Git geçmişinde, her ajanın iş lock kayıtları ve ilerleme dokümanları yer aldı

Claude ekip programlamasından çıkarılan dersler

Yüksek kaliteli testlerin önemi

  • Claude kendisine verilen testlere göre otonom çalıştığından, doğrulayıcının doğruluğu kritik öneme sahipti
    • Yanlış pozitifler varsa geliştirme yanlış yöne kayabiliyor
  • Sürekli entegrasyon (CI) hattı kurularak mevcut işlevlerin bozulmaması zorunlu olarak doğrulandı
  • Kaliteyi güvenceye almak için açık kaynak build script'leri ve compiler test suite kullanıldı

Claude'un bakış açısından ortam tasarımı

  • Her ajan bağlamı olmayan yeni bir konteynerde başladığı için, ilerlemenin dokümante edilmesi zorunluydu
    • README ve ilerleme dosyalarının sürekli güncellenmesi istendi
  • Bağlam kirlenmesini önlemek için log'lar minimumda tutuldu, hatalar ise ERROR anahtar sözcüğüyle ayırt edilebilir biçimde kaydedildi
  • Zaman farkındalığının olmamasını telafi etmek için --fast seçeneğiyle %1 ila %10 örnek testler çalıştırıldı

Paralelleştirmenin sınırları ve çözümler

  • Birbirinden bağımsız çok sayıda test olduğunda paralelleştirme kolaydı; ancak Linux çekirdeği derlemesi tek ve dev bir iş olduğu için çakışmalar yaşandı
  • Çözüm olarak GCC referans derleyici oracle'ı kullanıldı
    • Bazı dosyalar GCC ile, geri kalanı ise Claude derleyicisiyle derlendi
    • Hata olduğunda problemli dosya daraltılarak paralel hata ayıklama yapılabildi
    • Sonrasında delta debugging ile karşılıklı bağımlı hatalar tespit edildi

Ajan rollerinin ayrıştırılması

  • Yinelenen kodun kaldırılması, performans iyileştirme, verimli kod üretimi, Rust yapısının iyileştirilmesi ve dokümantasyon gibi alanlarda uzmanlaşmış rol paylaşımı yapıldı
  • Paralellik ile uzmanlaşmanın birleşmesi, büyük ölçekli kod tabanlarının yönetim verimliliğini artırdı

Opus 4.6 modelinin performans değerlendirmesi

  • Opus 4.5 sürümüne kadar büyük projeleri derlemek mümkün değilken, Opus 4.6 ile ilk kez pratik düzeye ulaşıldı
  • Clean-room implementasyon ile internet erişimi olmadan yalnızca Rust standart kütüphanesi kullanıldı
  • GCC torture test suite testlerinin %99'u geçildi, Doom çalıştırılabildi
  • Sınırlamalar:
    • 16 bit x86 kod üretilemiyor, bu yüzden önyükleme aşamasında GCC çağrısı gerekiyor
    • Assembler ve linker tamamlanmamış durumda, bazı hatalar bulunuyor
    • Üretilen kodun verimliliği düşük, GCC optimizasyonları kapalı seviyeden bile daha verimsiz
    • Rust kod kalitesi makul olsa da uzman seviyesinde değil

Otonom ajan ekiplerinin sınırları ve potansiyeli

  • Proje, LLM'lerin otonom iş birliğinin sınırlarını ölçmek için bir benchmark niteliği taşıyor
  • Tam otonom geliştirme, kalite güvencesi ve güvenlik riskleri barındırıyor
    • Yalnızca testleri geçmenin işi tamamlanmış sanılmasına yol açma riski var
  • İnsan doğrulaması olmadan kod dağıtımı konusundaki kaygılar dile getirildi
  • Buna rağmen, otonom ajan ekiplerinin karmaşık projeleri tamamlayabileceği gösterildi
  • Gelecekte model ilerlemeleriyle birlikte güvenli otonom geliştirme stratejileri temel görev haline gelecek

Geleceğe bakış

  • Dil modellerindeki gelişim, IDE otomatik tamamlama → fonksiyon tamamlama → eşli programlama → otonom proje yürütme çizgisinde ilerliyor
  • Agent teams, tam otonom geliştirmenin mümkün olabileceğini gösteriyor
  • Teknolojik gelişimin hızı şaşkınlık yaratırken, aynı zamanda yeni etik ve güvenlik çerçevelerine ihtiyaç vurgulanıyor
  • Olumlu kullanımın olumsuz riskleri dengelemesi bekleniyor; ancak yeni geliştirme paradigmasına hazırlık gerekli

2 yorum

 
mammal 2026-02-06

Bu proje C ile yazılmış bir derleyici değil, yalnızca Rust standart kütüphanesiyle yapılmış bir proje; dolayısıyla gcc/clang C kodunun eğitim verisinde bulunduğu eleştirisi bana biraz kale direklerini taşımak gibi geliyor. Her hâlükârda gerçekten etkileyici.

 
GN⁺ 2026-02-06
Hacker News yorumları
  • Ben Google'da yaklaşık 10 yıl boyunca Clang ile Linux çekirdeğini derleme işi yaptım. Bu proje(clangbuiltlinux.github.io) ise bir LLM'nin 2.000 oturum ve 20 bin dolarlık API maliyetiyle aynı işi başardığını söylüyor. Gerçekten açılışa kadar çalıştığı söylenince şaşırtıcı. Ancak üretilen kodun verimliliği düşük ve GCC'nin optimizasyonsuz sürümünden bile daha verimsiz deniyor. Yine de gerçekten harika bir proje

    • Harika ama belki de başkasının ödevini kopyalamış bir sonuç olabilir
    • Opus'un 16 bit x86 kod üretecini hayata geçiremediği için açılış aşamasında GCC'yi çağıran bir hile kullandığı söyleniyor. Gerçekten boot etmiş sayılır mı, emin değilim
    • Bu, sanki Ken Thompson'ın “Trusting Trust” döneminin geri gelişi gibi. AI yakında derleyicinin içine kendisini yerleştirebilir
    • 20 bin dolar harcandıysa, o parayla kısa süreliğine 8 kıdemli geliştirici tutulabilirdi. Pazarlama maliyeti fazla yüksek görünüyor ve gerçek gelir modeli belirsiz
  • Cursor tarayıcı projesinden çok daha gerçekçi bir yaklaşım. Buna clean-room implementasyonu denmiş; internete erişim olmadan yalnızca Rust standart kütüphanesi kullanılmış. 100 bin satırlık derleyicinin Linux 6.9, QEMU, FFmpeg, SQLite, Postgres ve Redis'i derleyebildiği söyleniyor.
    Opus 4.5 ilk kez büyük testleri geçebildi ve bu sonuç da sanki o sınırların neredeyse tamamını kullanmış gibi.
    Pek çok kısıta rağmen bunun etkileyici bir deney olduğunu düşünüyorum

    • “Clean-room implementasyonu” ifadesi abartılı görünüyor. Model zaten internet genelindeki C derleyicileri üzerinde eğitildiği için bunu özellikle söylemeye gerek yok
    • Bu sonucu yalnızca bugünkü seviyeye bakarak değerlendirmek biraz yazık. Son birkaç aydaki gelişim hızı düşünülürse, 1 yıl sonra hayal edilemeyecek bir noktada olabiliriz
    • Aslında clean-room'dan çok, LLM'nin eğitim sırasında sıkıştırdığı bilgiyi test tabanlı olarak dışa vurmasının sonucu gibi duruyor
    • Sonuçta GCC ya da Clang koduyla eğitilmiş bir model olmalı; gerçek kod benzerliğinin ne kadar olduğunu merak ediyorum
    • Bana göre etkileyici ama gerçek kullanıcı açısından daha az ilgi çekici. LLVM'ye yeni bir ISA eklemek ya da yeni bir dil için derleyici yapmak daha anlamlı olabilir
  • İlk başta “vay be, müthiş” dedim ama sonra fikrim değişti. C derleyicisi, spesifikasyonu çok katı bir yazılım olduğu için LLM'lerin ele alması görece kolay bir alan.
    Ama yaptığımız işlerin çoğu, gereksinimlerin belirsiz olduğu ve hedeflerin sürekli değiştiği ortamlarda geçiyor. Böyle alanlarda da iyi çalışıp çalışmayacağını merak ediyorum

    • “C derleyicisi nettir” sözü komik geliyor. Ortada ne kadar çok “unspecified behavior” var
    • Kod üretiminin testlere uydurulması, ML model fitting işine benziyor. İnsanların hâlâ testleri tasarlaması ve doğrulaması gerekiyor
  • Sonucun kusursuz olması gerektiği beklentisi tuhaf geliyor. Mümkün olması bile başlı başına şaşırtıcı. Böyle denemeler bir sonraki Opus veya Sonnet eğitimine yansır ve belki bir gün kendi kendine verimli derleyiciler üreten modeller çıkar

    • Ben de aynı düşünüyorum. “Bir köpeğin ne kadar iyi dans ettiğinden çok, dans ediyor olması şaşırtıcıdır”
    • Bugünlerde üretken yapay zekaya karşı tepki çok büyüdü; ufak bir kusur bile olsa hemen ‘AI çöpü’ diye damgalanması üzücü. Bu sadece bir demo ve kavram kanıtı sonuçta
  • Bu projenin Linux çekirdeği, QEMU, FFmpeg, Redis ve Doom'u derleyebildiği söyleniyor. Gerçekten şaşırtıcı.
    Ama bu tür ajan sistemleri, test edilebilir alanlarda iyi çalışsa da iş kararları gibi bağlam gerektiren alanlarda sınırlı kalıyor

    • Zaten internetin tamamıyla eğitilmiş bir modele “clean-room implementasyonu” demenin anlamlı olup olmadığı şüpheli
    • Sonraki adım, AI'nin gerçekten iş bağlamını anlayıp işletmesi olacak. Örneğin Vending-Bench gibi benchmark'lara bakılırsa, AI ürün yöneticisinin kullanıcı görüşmeleri, deneyler ve roadmap önerilerini otomatik yaptığı gün çok uzak olmayabilir
  • Harika bir proje ama “clean-room” vurgusu olmasa daha iyiymiş. Sonuçta telifli kodla eğitilmiş bir model, yani bunun tersine daha yakın

    • Ama insanlar da mevcut kod tabanlarını öğrenip, bu bilgiye dayanarak clean-room implementasyonu yapabiliyor
    • İnsanların şirkette öğrendiği bilgiyi başka yerde yeniden kullanması gibi, LLM de eğitim verisini dönüştürücü biçimde yeniden kuruyor. Doğrudan kopya değilse mesele farklı
  • GitHub issue'ya göre sorun include yolunun eksik olmasından kaynaklanıyor. Derleyicinin kendisi normal

    • Muhtemelen sadece glibc-devel gibi bir paket eksikti
    • Yazı fazla uzundu ve yeterli dayanak sunmuyordu. Esas noktayı kaçırmış gibi
    • AI gelecektir
    • Gerçekten şaşırtıcı bir sonuç
  • Keşke tüm prompt'lar ve ajan yapısı da paylaşılmış olsaydı. Öğrenmek için müthiş olurdu ama birebir denemek için 20 bin doları harcamak zor

    • Bugünlerde sadece sonuca bakıp sürecin nasıl işlediğini merak etmeyen bir hava olması üzücü
  • Bu, Cursor blogundaki şeyin çalışan sürümü gibi. Gerçekten Linux çekirdeğini derlediğine dair kanıt çok daha ikna edici

    • Başta 1 Nisan şakası için hafif bir dil yapmayı düşünüyordum ama artık bu seviyede sonuçlar görünce şaşırıyorum. Yine de denemeye devam etmeyi düşünüyorum
  • Bu, “piramit inşa edebilir ama katedral yapamazsın” türünden bir yaklaşım (ilgili yazı).
    Muazzam hesaplama kaynağı harcanarak işlev zorla ortaya çıkarılmış ve 20 bin doların yakıldığı bile söylenebilir.
    Üstel hesaplama ile doğrusal sonuç almak anlamlı olabilir ama uzun vadede verimsiz bir yön gibi görünüyor

    • 20 bin dolar API fiyatıysa, abonelik açısından bu herhalde 5-6 Max planına denk gelir
    • Yine de bu sadece bir FAANG mühendisinin 2 haftalık iş gücü maliyeti kadar. Bir insan 2 haftada derleyici yapamaz; o yüzden gösterim açısından fazlasıyla değerli