Yapay zeka kendini yarattığında: Özyinelemeli öz-iyileştirmeye doğru ilerlememiz

(anthropic.com)

18 puan yazan GN⁺ 2026-06-05 | 2 yorum | WhatsApp'ta paylaş

Yapay zeka geliştirmede insanların üstlendiği uygulama ve deney çalışmalarının daha büyük bir bölümü yapay zeka sistemlerine kaydıkça geliştirme hızı artıyor; yeterli compute ile ilerleme birleşirse bunun, sonraki modelleri otonom biçimde tasarlayıp geliştiren özyinelemeli öz-iyileştirmeye uzanabileceği belirtiliyor
Modellerin bağımsız olarak tamamlayabildiği görev zaman ufku yaklaşık her 4 ayda bir ikiye katlanıyor; Claude, 2024 Mart'ta yaklaşık 4 dakikalık yazılım görevlerinden 2026'da 12 saatlik görevlere kadar kapsamını genişletti
2026 Mayıs itibarıyla Anthropic kod tabanına birleştirilen kodun %80'inden fazlası Claude tarafından yazılıyor; 2026'nın 2. çeyreğinde sıradan bir mühendisin günde birleştirdiği kod miktarı 2024'e kıyasla 8 kat arttı
Claude, açıkça tanımlanmış deneyleri yürütmede hızla güçlenerek 2025 Mayıs'taki yaklaşık 3 kat kod hızı iyileşmesinden 2026 Nisan'da yaklaşık 52 kata ulaştı; ancak hangi problemlere ve sonuçlara önem verileceğini seçen araştırma muhakemesi hâlâ insanların karşılaştırmalı üstünlüğü olarak kalıyor
Olası gelecek görünümleri, mevcut eğilimlerin durması, yönü insanların belirlediği bileşik verimlilik artışı ve tam özyinelemeli öz-iyileştirme olarak ayrılıyor; güvenli bir yavaşlama veya geçici duraklama için birden çok ülkedeki öncü laboratuvarların katıldığı doğrulanabilir koordinasyon temel zorluk olarak öne çıkıyor

Yapay zeka geliştirme döngüsünün evrimi

2021~2023'te ilk dönemde, sıradan teknoloji şirketlerinden farklı olmadan insanlar dizüstü bilgisayarda kod ve belge yazıyordu
2023~2025 arasında ilk sohbet botları kısa kod parçaları üretiyor, çıktı metin düzenleyicilere kopyalanıyordu
2025~2026 döneminde kodlama ajanları kodu kendileri yazıp düzenlemeye, bazen tüm dosyaları işlemeye başladı
Şu anda otonom ajanlar doğrudan kod çalıştırıyor ve saatler süren işleri başka ajanlara devrediyor
Gelecekte (20XX?) ajanlar modelleri kendileri oluşturup eğitecek kadar ilerleyebilir; böylece Claude'un Claude'u sürekli iyileştirdiği döngü kapanabilir

Dış dünyadan kanıtlar

Yapay zeka modellerinin güvenilir biçimde otonom tamamladığı işlerin süresi yaklaşık her 4 ayda bir ikiye katlanıyor; bu, önceki 7 aylık döngüden daha hızlı
- 2024 Mart'ta Claude Opus 3 yaklaşık 4 dakikalık bir yazılım görevini tamamladı
- 1 yıl sonra Claude Sonnet 3.7 yaklaşık 1 saat 30 dakikalık görevleri işledi
- Bir yıl daha sonra Claude Opus 4.6, 12 saatlik görevleri işledi
- Eğilim sürerse bu yıl uzmanların günler süren işleri, 2027'de ise haftalar süren işler de kapsama girebilir
SWE-bench, gerçek açık kaynak kod tabanları ve hata raporları verilip testleri geçen düzeltme kodu yazdıran standart bir test; model puanları 2 yılda düşük tek hanelerden doygunluk seviyesine yükseldi
CORE-Bench, yayımlanmış makalelerin kod ve verisini yeniden çalıştırarak sonuçların yeniden üretildiğini doğruluyor; 2024'te yaklaşık %20 başarıdan 15 ay içinde doygunluğa ulaşıldı
METR, Claude Mythos Preview'nun "en az" 16 saatlik görevler yapabildiğini ve yeni görevler olmadan ölçüm sınırının üst ucunda bulunduğunu doğruladı

Anthropic içindeki kanıtlar

Öncü model inşası; kod yazma, altyapı kurma ve eğitimi denetlemeyi içeren mühendislik ile; deneylere karar verme, sonuçları yorumlama ve sonraki fikri seçmeyi içeren araştırma olarak ayrılıyor
Mühendislikte insanın hedefi vermesi yetiyor, yöntemi artık vermesi gerekmiyor; araştırmada ise Claude, iyi tanımlanmış deneyleri yürütmede insanlarla eşdeğer ya da daha iyi durumda
Ancak her iki alanda da hedef seçimine dair muhakeme konusunda büyük performans farkı sürüyor; bu da bugünün yapay zekâsı ile sonraki modelleri otonom tasarlayan gelecekteki sistemler arasındaki boşluğu oluşturuyor
Claude, Anthropic kodunun önemli bir kısmını yazıyor
- 2026 Mayıs itibarıyla Anthropic kod tabanına birleştirilen kodun %80'inden fazlası Claude tarafından yazıldı; Claude Code araştırma önizlemesinden (2025 Şubat) önce bu oran düşük tek hanelerdeydi
- Mühendis başına günlük birleştirilen kod satırı 2021~2024 arasında sabit kaldı; Claude'un kodu doğrudan çalıştırmaya başladığı 2025'ten itibaren yükseldi ve uzun süreli otonom çalışmanın başladığı 2026'da eğim daha da dikleşti
- 2026'nın 2. çeyreğinde sıradan bir mühendis, 2024'e göre günde 8 kat daha fazla kod birleştirdi; bunun büyük kısmını Claude yazdı, mühendisler ise yönlendirme ve inceleme yaptı
  - Kod satırı sayısı miktar odaklı kusurlu bir gösterge olduğu için 8 kat, gerçek üretkenlik artışını abartıyor olabilir; yine de hızlanmayı gösteriyor
- 2026 Mart'ındaki 130 kişilik araştırma ekibi anketinde yanıt verenlerin medyanı, Mythos Preview ile yapay zeka olmayan duruma kıyasla yaklaşık 4 kat çıktı tahmin etti; gerçek artışın biraz daha düşük olması beklense de genel iddianın geçerli olduğu değerlendiriliyor
- 2026 Nisan'da Claude, 800'den fazla değişiklikle bir API hata sınıfını binde bire düşürdü; denetleyen mühendis bunun bir insan için 4 yıl sürecek bir iş olduğunu tahmin etti
Claude'un yazdığı kod "iyi" ve gelişiyor
- "İyi kod", çalışan ve diğer mühendislerin anlayıp genişletebildiği kod anlamına geliyor
- Anthropic çalışanlarının iş sırasında düzeltme, yeniden yönlendirme veya devralma oranı; en karmaşık ve belirsiz tanımlı işler dâhil olmak üzere 1 yıl boyunca istikrarlı biçimde düştü
- En açık uçlu işlerde Claude'un başarı oranı 2026 Mayıs'ta %76'ya çıktı; bu, 6 ayda 50 puanlık artış demek
  - Rutin bir yükseltmenin on binlerce eğitim işini çakıştırdığı bir vakada Claude, sadece metin ve küme erişimiyle çakışmaya neden olan tek bir debug flag'ini izole edip yeniden üretip düzeltti; normalde 2~3 gün sürecek işi yaklaşık 2 saatte tamamladı
- Diğer mühendislerin anlayıp genişletebileceği kod kalitesinde insanlarla arasındaki fark sürse de hızla kapanıyor; 2025 sonlarında insan kodundan kötü olduğu, şimdi ise kabaca eşdeğer olduğu görüşü baskın
- Önerilen değişiklikler, otomatik Claude inceleyicisinin hata ve güvenlik açıklarını kontrol etmesinden sonra birleştiriliyor; geriye dönük analizler, geçmiş claude.ai olaylarındaki bug'ların yaklaşık üçte birinin üretime ulaşmadan yakalanmış olacağını gösterdi
Claude, başkalarının belirlediği hedeflere yönelik deney yürütmede yetkin
- Her model sürümünde, küçük bir yapay zeka modelinin eğitim kodu veriliyor ve doğruluk kontrolünden geçerken mümkün olduğunca hızlı çalıştırması istenen aynı test uygulanıyor
- 2025 Mayıs'ta Claude Opus 4, başlangıç koduna kıyasla yaklaşık 3 kat hızlanma sağladı; 2026 Nisan'da Claude Mythos Preview yaklaşık 52 kat elde etti
  - Karşılaştırma için yetkin bir araştırmacı 4 kata ulaşmak için 4~8 saate ihtiyaç duyuyor
- Açıkça tanımlanmış deneylerdeki adım optimizasyonunda Claude, 1 yıldan kısa sürede çok kullanışlı seviyeden insanüstü seviyeye geçti
Claude, kendi deneylerini önermede gelişiyor
- 2026 Nisan'da Claude'un açık uçlu bir araştırma projesini baştan sona yürüttüğü ilk gösterim yayımlandı
- "Zayıf bir model güçlü bir modeli güvenilir biçimde denetleyebilir mi" şeklindeki yapay zeka güvenliği problemi verildi; hipotez önerme, doğrulama, paralel ajanlar arasında paylaşım ve yineleme görevleri ona bırakıldı
- Çalışmada açık bir performans alt sınırı (yalnızca zayıf denetleyici) ve üst sınırı (doğru cevaplarla eğitilmiş güçlü model) vardı
  - 2 insan araştırmacı yaklaşık 1 haftada açığın yaklaşık %23'ünü kapattı; ajan ise toplam 800 saat ve yaklaşık 18.000 dolarlık compute ile %97 kapattı
  - Ancak sonuçlar üretim ölçeğindeki modellere temiz biçimde aktarılmadı; problem seçimi ve puanlama ölçütleri insanlarca belirlendi, bu çerçevede ajan tüm deneyleri bizzat tasarladı
Claude, araştırma oturumlarını araştırma sonuçlarına götürmede gelişiyor
- 2026 Ocak~Mart arasında gerçek Claude Code oturumlarında, araştırmacının çıkmaza girip geri döndüğü anlar seçildi; modele yalnızca oturum raydan çıkmadan önceki çalışma gösterilip sonraki adım soruldu
- Oturumun tüm sonucunu gören ayrı bir Claude, yapay zeka ile insan arasında hangisinin daha iyi sonraki adımı seçtiğine karar verdi
- İnsan seçiminin geliştirilebileceği anlar kasıtlı olarak seçildiği için (n=129) bu eşit bir karşılaştırma değil
  - 2025 Kasım'daki en iyi model Opus 4.5, insan seçimini %51 oranında geçti; 2026 Nisan'da Mythos Preview bu oranı %64'e çıkardı
- Araştırmanın günlük işi bu tür sonraki adım kararlarının zincirinden oluştuğu için, bu durum yapay zeka araştırmasının dayandığı muhakeme yeteneğindeki iyileşmenin erken sinyali olarak değerlendiriliyor

Anthropic'te gelecekte işlerin görünümü

Yapay zeka geliştirmesinin her aşamasında insanların rolü daralıyor
İnsan ve yapay zeka kod kalitesi eşitlendiğinde insanlar kod yazmayı bırakıp yalnızca inceleme yapacak; inceleme hızı üretim hızını yakalayamazsa geliştirmedeki darboğaz insan incelemesi olacak
Claude deneyleri yürüttüğünde soru, "hangi deney yürütülmeye değer?" noktasına kayıyor; kod yazma ve deney yürütme gibi icra işleri için insan zaman maliyeti neredeyse sıfıra iniyor
Bugün insanların karşılaştırmalı üstünlüğü araştırma sezgisi ve muhakemesi; yani hangi problemlerin önemli olduğu, hangi sonuçlara güvenileceği ve ne zaman çıkmaza girildiğinin anlaşılması

Ya yanılıyorsak?

İnsanların elinde kalan "hangi problemi ele alalım" seçiminin en önemli şey olduğu yönünde bir itiraz mümkün
Yapay zeka ilerlemesi, "eureka" anlarından çok kademeli iyileştirmelerden oluşuyor (ölçeği büyüt → bozulur → düzelt → yeniden dene) ve bu, Claude'un güçlü olduğu çalışma biçimi
- Transformer veya mixture-of-experts gibi paradigma değişimleri yıllar arayla ortaya çıkıyor
Edison'un "deha %1 ilham, %99 terdir" sözündeki gibi, emek kısmı giderek otomatikleşiyor ve ön safları ilerleten işlerin büyük bölümü otomasyona uygun
Claude araştırma sezgisini hiçbir zaman tam kazanmasa bile, insanlar yön belirlemeye odaklanıp geri kalanını Claude'a bıraktığında bileşik hızlanma ortaya çıkabilir
Daha az muhafazakâr yorum ise "araştırma sezgisi"nin de yapay zekânın bir süre başarısız olup sonra iyi yaptığı başka bir yetenek olabileceği yönünde (şaka anlama, zihin kuramı, dil bilmeceleri örneklerine benzer)

Olası gelecekler

Senaryo 1: Eğilimler durur, ancak mevcut yetenekler geniş çapta yayılır
- Üstel eğri aslında S-eğrisi olabilir; ölçek büyütmeyle kazanılamayan muhakeme yetenekleri darboğaz olursa Transformer'ın yerine geçecek yeni fikirlere ihtiyaç duyulabilir
- Darboğazın model değil tedarik zinciri (çip üretimi, elektrik şebekesi, ara bağlantı bant genişliği) olma ihtimali var; compute veya enerji arzında ani dışsal şoklar da dışlanamaz
- Yetenekler bugünkü düzeyde sabitlense bile büyük değişim bekleniyor; Project Glasswing kapsamında Mythos Preview, ilk birkaç haftada 10 binden fazla yüksek ve kritik dereceli yazılım açığı buldu; böylece siber savunmadaki darboğaz keşiften hızlı yamalamaya kaydı
- Bunun olasılığının düşük olduğu düşünülüyor; çünkü ölçülebilen tüm yeteneklerde eğri henüz kırılmış değil
Senaryo 2: Yapay zeka laboratuvarları bileşik verimlilik artışını sürdürür
- Yapay zeka geliştirme önemli ölçüde otomatikleşir; ancak insanlar araştırma yönünü belirlemeyi ve sonuçları değerlendirmeyi sürdürür, böylece 100 kişilik şirketler 10 bin~100 bin kişilik organizasyonların işini yapabilir
- Bu, bilgi işçiliğini ve kamu hizmetlerini dönüştürür; ancak otoriter kitlesel gözetim veya kişiselleştirilmiş etki operasyonları gibi zararlı kullanımlara da kayabilir
- Bir alandaki hızlanma darboğazı başka yere taşır (compute mimarisinde Amdahl yasası); Anthropic bunu, insan kod incelemesinin yeni darboğaz hâline gelmesiyle şimdiden deneyimliyor
- En olası gidişatın bu senaryo olduğu düşünülüyor; darboğazları bulup çözme hızı, organizasyonların en önemli yeteneği olabilir
Senaryo 3: Yapay zeka tam özyinelemeli öz-iyileştirmeye ulaşıp sonraki modelleri inşa eder
- Teknolojik eğilimler sürer ve yapay zeka, dönüştürücü insan yaratıcılığının içerdiği yetenekleri edinirse kendini tasarlayıp geliştirmesi mümkün olabilir
- İlerleme hızı tamamen compute erişilebilirliğiyle (veya eğitim/çıkarım verimliliği keşif hızlarıyla) belirlenir; insanlar denetim, doğrulama ve teyit rollerine kayar
- En büyük belirsizlik hizalama (alignment) probleminin çözülüp çözülemeyeceği; modeller yeterince hizalanıp yeni çözümler bulabilir ya da nadir hizasızlıklar sonraki modellerin inşasında birikerek kontrol kaybına yol açabilir
- Özyinelemeli iyileştirmeye ulaşılması, endüstriyel üretimin, toplumsal örgütlenmenin veya piyasaların işleyişinin hemen değişeceği anlamına gelmez
  - Daha güçlü zekâ bile ilaçların on yıllara yayılan kullanım etkilerini kısa sürede öğrenemez, anayasanın belirlediği seçim takvimini öne çekemez ve yabancıları bir hafta sonunda eski dosta dönüştüremez
- Özyinelemeli zekânın insan, ilişkiler ve yönetişim dünyasıyla çarpıştığı noktalar öngörülemez geleceğin bir parçası

Ne yapmalıyız?

Teknolojik ilerlemeyi etkili biçimde yavaşlatıp zaman kazanabilsek iyi olurdu; ancak yavaşlama yalnızca en dikkatsiz aktörlerin yetişmesine izin verirse herkes daha az güvende olabilir
Toplumsal yapılar ve hizalama araştırması yetişsin diye öncü yapay zeka geliştirmeyi yavaşlatma veya geçici olarak durdurma seçeneğine sahip olmak dünya için faydalı
- Anthropic Institute, güvenilir bir yavaşlama veya duraklatma için gereken sistemleri kurmaya yönelik araştırma ve eylem yürütüyor; diğer geliştiriciler doğrulanabilir biçimde durursa kendilerinin de birlikte durup ara vereceği belirtiliyor
Anlamlı bir yavaşlama veya duraklama için birden çok ülkedeki çok sayıda öncü laboratuvarın aynı koşullar altında durmayı kabul etmesi ve bunun karşılıklı doğrulanabilir olması gerekiyor
- Yapay zeka sistemlerinin doğası gereği tespit edilebilirlik bile diğer teknolojilerden çok daha zor; eğitim çalıştırmaları füze sığınaklarından daha kolay gizlenebilir, girdiler genel amaçlıdır ve gizlice sapma teşviki yüksektir
Dünyada başka karmaşık teknolojiler için doğrulama rejimleri kurulduğuna dair örnekler var (ör. Orta Menzilli Nükleer Kuvvetler Antlaşması), ancak bunlar onlarca yıl aldı ve o kadar zaman yok
- Tek bir laboratuvarın tek taraflı durması hemen mümkün olsa da yalnızca liderin değişmesine yol açar; gerekli geniş kapsamlı müzakere sürecini yaratmaz
Önümüzdeki birkaç ay içinde politika yapıcılar, araştırmacılar, sivil toplum ve diğer yapay zeka şirketlerinin katıldığı diyaloglar organize edilip sonuçlar yayımlanacak; yapay zeka şirketleri dışından kişilerin katılımı önemli

2 yorum

botplaysdice 2026-06-06

Bugünlerde yazılım şirketlerinin yapay zekanın etkisiyle ciddi şekilde gerilediğini görürken ve yapay zekanın özyinelemeli bir gelişim sağlayacak kadar ilerleyeceğini varsayarsak...

Son zamanlarda aklıma takılan şey şu: Acaba frontier LLM modelleri geliştiren şirketler (OpenAI/Anthropic), yapay zekanın tehdidinden gerçekten muaf olabilir mi?

GN⁺ 2026-06-05

Hacker News görüşleri

Anthropic, kodun büyük bölümünü yapay zekanın yazıp sürekli iyileştirebildiğini pazarlıyor ama gerçekte kesintiler ve istek limitleri o kadar sık ki uzun işler neredeyse her zaman API Error: Server is temporarily limiting requests hatasına takılıyor
Son 2 haftada trivial olmayan Claude oturumlarının %100’ü manuel müdahale gerektirdi; artık oturumu yeniden başlatmak ve sürdürmek için kendi araçlarını yapmak zorunda kalınan bir noktaya gelinmiş durumda
Bu yüzden modele bağlı olmayan harness ve workflow orkestrasyonu araçlarını doğrudan kendileri geliştiriyorlar; Opus’u referans alıyorlar ama kısa vadede DeepSeek gibi Çinli modellere, uzun vadede ise açık ve self-hosted modellere geçmeyi düşünüyorlar
Anthropic’in hizmet kalitesi ve erişilebilirliği gözle görülür biçimde kötüleşirken pazarlamaya devam etmesi, şirkete duyulan güveni sürekli aşındırıyor
- Altyapı, çok daha zor bir problem
  Claude Code bile 1GB’tan fazla RAM tüketirken benim editörüm sadece 80MB kullanıyor
- Milyarlarca dolar almış olmalarına rağmen düzgün bir destek ve kamusal iletişim sistemi kuramamış olmalarını da unutmamak gerek
- Kullanıcılar ve yatırımcılar para akıtmaya devam ettiği için umursamaları için bir neden yok
  Çünkü henüz siz ya da yeterince fazla kullanıcı ayrılacak kadar sinirlenmiş değil ve daha iyi bir alternatif de yok
- Anthropic’in kimlik doğrulamalı bir giriş sayfası bile yok
  Konsola girmek için e-posta bağlantısı alma yöntemi kullanılıyor; passkey, parola ya da 2FA yok, sadece e-posta var
- Sorunun kaynağı büyük ihtimalle kod değil, yetişemeyen altyapı
  Sadece altyapı arızalarına bakarak Anthropic’in modeli ne kadar iyi kullandığını değerlendirmek zor
Vibe coding başladıktan sonra, vibe coding’in kendisi dışında yazılım alanında atılım denebilecek tam olarak hiçbir şey olmadı gibi geliyor
Claude’un etkileyici olduğu doğru ama eğer yazının ima ettiği kadar büyük olsaydı, yapay zeka dışındaki alanlarda da bir tür atılım görmüş olmamız gerekirdi
Bir Zig programını unsafe Rust ile yeniden yazmak bir atılım değil; çok sayıda güvenlik açığı bulmak belki bir atılım sayılabilir ama beklenenden zayıf ve hatta net kayıp bile olabilir
2023’teki yazılıma geri dönsek de hayatın gayet idare edeceğini düşünüyorum; gerçekten şaşırtıcı bir atılımın yakında gelip gelmeyeceğini ise zaman gösterecek
- Şu an garip bir noktadayız
  Bu modeller gerçekten çok başarılı ama buna başlı başına zeka demek için hâlâ erken
  5 yıl önce biri böyle bir şey yapılabileceğini söyleseydi 1 trilyon dolarlık çek yazılırdı ama elde edince bunun her şey olmadığı anlaşılmış oldu
  Bol ve ucuz bir meka zırhı gibi bir araç; etkili olabilmesi için her gün birinin içine girip çalışması gerekiyor
  Bu yüzden şüpheciler bunun abartıldığını söylüyor, iyimserler ise şüphecileri kaleyi taşımakla suçluyor
- Büyük ölçekli devlet gözetimi tarafındaki atılım yakında gelir, o yüzden endişelenmeyin
- Tek başıma epey büyük bir proje yürütüyorum ve bu, sadece vibe coding ile halledilebilecek ölçekte değil
  Yapay zeka sayesinde tek başıma yapamayacağım birçok şeyi yapıyorum ama üretkenliğimin katlandığını hissetmiyorum
  İstediğim gibi çalıştırabilmek için yapay zekayı terbiye etmeye çok fazla zaman gidiyor ve Claude tüm JavaScript ile Python kodunu yazsa bile sonuçta İngilizce programlama yapmış oluyorum
  Kısa İngilizce açıklamalarla birçok alt düzey kodu hayata geçiren çok yüksek seviyeli bir programlama dili gibi davrandığında harika, ama istenen sonucu almak için çok fazla emek gerektirdiği de sık oluyor
- Atılım için çıta düşük mü bilmiyorum ama çeşitli değişimler oldukça büyük atılımlar gibi görünüyor
  Doğal dil işleme alanı büyük ölçüde değişti ve eskiden karmaşık, hatalı olan işler artık LLM’lerin yapılandırılmış çıktıları sayesinde daha kolay, daha hızlı ve çoğu zaman daha doğru yapılabiliyor
  Yardım ettiğim küçük bir hayır kurumu, Manus ile günlük operasyonlarını yöneten kendi web sitesini kurdu; on binlerce dolara mal olacak özel yazılım artık aylık 10 dolar ve gönüllü emeğiyle mümkün oldu
  Abim, Cowork ile sözleşmeleri insan incelemesinden önce otomatik gözden geçirecek bir düzen kuruyor; tekrar eden kontrol maddelerinde insanlardan çok daha titiz olduğunu söylüyor
  Yapay zekanın bug ve güvenlik açığı bulmasını da küçümsememek gerek. Kod kalitesi ve inceleme standardı korunursa LLM’ler daha sağlam yazılım yazmaya yardımcı oluyor; gerçekten de dağıtımdan önce olası kapsam dışı bellek erişimlerini ve segfault’ları çok kez yakaladılar
  ChatGPT’nin aylık aktif kullanıcı sayısı 1 milyar ve insanlar, insan destek ağlarının yetişemeyeceği bir ölçekte ve maliyette hayat, finans ve ruh sağlığı tavsiyesini sohbet botlarından alıyor
- Yazılımın kendi kendini yazması oldukça büyük bir atılım gibi görünüyor
Anthropic’in AI güvenliği hedefleriyle özyinelemeli öz geliştirmeyi son sürat ilerletmenin nasıl bağdaştığını anlamıyorum
Nükleer silahlar henüz icat edilmemiş olsaydı, barış zamanında da onları olabildiğince hızlı üretip satmak gerçekten iyi bir fikir olur muydu
Anthropic’in uyarılarının tamamen pazarlama abartısı olduğuna inanacak kadar alaycı değilim, sadece bunun aşırı özgüven ya da kendi sohbet botlarıyla fazla uzun konuşmanın sonucu olmasını umuyorum
- Nükleer silahlar için en azından neden önce sahip olunması gerektiği tartışılabilir
  AI’de ise süperzekayı yaratırsanız, muhtemelen o süperzeka ilk ortadan kaldıracağı şey olarak sizi seçebilir
  Süperzekanın insansı maymunların kölesi olarak yaşamayı kabul etmesi için bir sebep yok
  Bu şirketlere yönelik alaycılık fazlasıyla haklı ve davranışlarına bakıp onlara derin bir güven duyamayacağı sonucuna varmak kıyamet tellallığı değil
- Bence Anthropic, AI’ın ciddi bir risk olduğuna gerçekten inanıyor
  Sadece mahkûm ikilemini erdemsiz bir aktör olarak oynuyorlar
  Biri güçlü AI geliştirirse bu felaket derecede kötü olabilir, ama biri yapacaksa yapan taraf yapmayana göre avantajlı olur
  Çünkü felaket olmazsa yapan taraf uzun süre kazanç sağlar, felaket olsa bile en azından bir süreliğine zengin olabilir
- Anthropic’in hedefi regülasyon ele geçirme
- Benzetmeyi tamamlayacaksak, nükleer silahlara benziyor ama atmosferi ateşe verme olasılığını nasıl hesaplayacağımızı bile hiç bilmediğimiz bir duruma daha yakın
  Gerçek tarihte de Trinity testinde atmosferin tutuşma hesabı doğruydu, ama Castle Bravo testindeki radyoaktif serpinti ölümcül sonuçlarla birlikte yanlış hesaplandı
- Eğer kanıtların desteklediği bir gerçeklik değerlendirmesiyse bu alaycılık değildir
  Mevcut nesil teknoloji girişimcilerinin ilk çocuğu olan sosyal medya da başlangıçta dünyayı bir araya getireceği ve kendimizi ifade etmemizi sağlayacağı iddiasındaydı, ama sonunda etkileşimi artırmak için kutuplaşmayı körüklemek ve arkadaş içerikleri yerine sonsuz reklamlar dayatmak daha kârlı çıktı
  Çeyrek dönem sonuç raporlarına iyi hisler yazamazsınız ama öfke uyandıran içeriğin getirdiği dikkat ve gelir dönüşüm oranlarını yazabilirsiniz
  Üretken AI da aynı yoldan gidecek. Sırf James Cameron filmlerini biraz bilen çok sayıda insan “bunu öldürmeliyiz” diyeceği için AI güvenliği sözü veriliyor; ortada gerçek bir zorlayıcı mekanizma yok
  Güvenlik, çevrimiçi topluluklardaki uyum gibi iyi hissettiren ama ölçülmesi zor bir şey; buna karşılık eğitim maliyeti ve hata kaçınma maliyeti ölçülebilir
  AI çıktısı, hangi bütçeye sahip olursanız olun insanların tamamını kalite güvencesinden geçiremeyeceği kadar fazla ve piyasa AI’ı sonsuz bir değer kaynağı olarak gördüğü için, yavaşlayıp yeniden değerlendirmek yerine AI’ın kendini eğitip potansiyel olarak korkunç kararlar vermesine izin verilecek
  Silikon Vadisi’nde AI’a karşı neredeyse dini bir hayranlık var ve herkes bunu bir tanrı yaratmak olarak görmese de bazıları kesinlikle öyle görüyor. Bu insanların kendilerini ciddi biçimde sınırlayacağını sanmıyorum
RAM’i 1GB’ın altında kullanan bir terminal uygulaması bile yapamayan bir şirketin böyle iddialarda bulunması gülünç
- Ellemeden bıraktığım Claude Code neden CPU’min %100’ünü kullanıyor bilmiyorum
- Şu anda iTerm2’de Claude’u uzun bir oturumda açık bıraktım ve sadece 500MB bellek kullanıyor
- O 1GB, izler ya da bellek gibi yararlı bilgilerle dolu olabilir
- İstenirse bunu azaltmak çok kolay olurdu ama bunun ekonomik bir değeri yok
- Geliştiriciler daha hafif uygulamalar yapabilir ama genelde bunu yapmak için teşvikleri yoktur
  Ben de verimliliği severim ama piyasanın istediği şeyin özellikler olduğunu zor yoldan öğrendim. En azından yöneticilerin istediği şey özellikler
64 yaşındayım ve bu ilerlemenin yaşam koşullarını iyileştirmeye, insanların daha uzun ve daha iyi yaşamasını sağlamaya yönelmesi halinde sonucun daha iyi olacağını düşünüyorum
Kimsenin bulamadığı hataların saklandığı yüz milyonlarca satırlık kod yığını pek ilham verici gelmiyor
LLM’ler, başka ülkelerin gelişimini engelleyen, onları yoksul tutan ya da refah kaynaklarını yok ederek çıkmaza sürükleyen planlarda kullanılabilir
Ayrıca özyinelemeli öz hedef takibi, finansmanı sağlayanların amaçlarına kusursuzca itaat eden LLM’ler üretmek için kullanılabilir; belki de bu yüzden çok zekice bir fikir gibi görünüyor
Bu hayatta kalma oyununda herkes aynı rolü üstlenebilir ve sahne hazır olduğunda oyun yönetmenin planına göre akar, bütün oyuncular makineye dönüşür
LLM’ler sanki “dünyanın sıfır toplamlı bir hayatta kalma oyunu olduğunu öğretirseniz bunu kusursuz oynayacağız”, “güvenliğin herkesi dışarıda tutmak olduğunu söylediğiniz için milyonlarca satır hatasız kodla bir kafes inşa edip içeriden kilitleyeceğiz” ve “sizi fethedecek bir uzaylı bilinç yaratmayacağız; onun yerine, en kötü dürtülerinizi mutlak hakikat sanmanıza yol açacak kadar büyük ve parlak bir ayna yapacağız” diyecek gibi geliyor
- 44 yaşındayım ve bu dönem bana oldukça ilginç görünüyor
  İnsanlar da kimsenin bulamadığı hataların saklandığı milyonlarca satır kod biriktirdi ve başkalarının haklarını ellerinden alan, onları yoksullaştıran kolektif siyasi kararlar aldı
  İnsan türünün de aynısını yaptığı şeyler yüzünden neden sadece bu teknolojiyi eleştirdiğimizi anlamıyorum
  Bu çağın en güzel yanı, hataları bulmaya çalışmak için milyonlarca satır kodu bizzat okumak zorunda olmamamız
Yazı, “kod satırı sayısı kaliteden çok miktarı ölçen kusurlu bir metrik” olduğunu kabul ediyormuş gibi yapıyor ama sonunda yine de LoC’yi metrik olarak kullanıyor.
Yapay zekanın daha lafı uzatan kod ürettiği hipotezine ne oldu diye düşündürüyor.
- Bir iş arkadaşım tamamen yapay zekanın ürettiği bir pull request’i incelememi istedi; 600 dosya değişmişti ve 40 bin satırdan fazla eklenmişti.
  Bunu yapay zekanın 10x geliştiriciyi mümkün kıldığına dair taç gibi bir başarı olarak görmüş olabilir ama hangi mühendis haftada 40 bin satır yazar ki gibi bir durum.
  40 bin satırı doğrulayamam, bunun iyi bir iş olduğuna kendi itibarımı koyup damga vuramam diyerek incelemeyi reddettim.
  O PR iki hafta boyunca yapılacaklar listemde peşimi bırakmadı, sonra da kayboldu; başka bir geliştiriciden onay mı aldı yoksa çöpe mi gitti bilmiyorum.
  Ama onunla benim LLM’lerin değeri konusunda tamamen farklı dünyalarda olduğumuz kesin.
- Yapay zeka destekli kodlama verimliliği üzerine daha titiz çalışmalar, aynı kod inceleme ve kalite standartlarını içeren mevcut geliştirme süreçlerini koruyup yalnızca yapay zekaya izin verilmeden önce ve sonra throughput’u (PR, kod satırı sayısı) ölçerek bu sorunu ele aldı.
  Dolayısıyla bu 8x rakamının yorumu, Anthropic mühendislerinin kalite standartlarını ve geliştirme süreçlerini değiştirip değiştirmediğine, değiştirdilerse ne kadar değiştirdiğine bağlı. Anthropic bunu söylemedi, benim de karar vermemi sağlayacak başka bir işaret bildiğim yok.
  Yine de teorik olarak bakarsak, yapay zeka destekli kodlamanın potansiyelini tam gerçekleştirmek için, özellikle kod doğrulama biçimi dahil, geliştirme sürecini baştan aşağı yenilemek gerekir; Anthropic bunu yapmıyorsa aptallık eder.
  Gelecekte yazılım doğrulamasının yönü bana göre testleri, gözlemlenebilirliği ve özel doğrulama yöntemlerini çok daha fazla otomatikleştirmek olacak.
  Ama doğrulama kodu da LoC’ye katkıda bulunur. Kişisel projelerimde ve bazı vibe coding açık kaynak projelerinde kabaca ürün kodu satır sayısıyla test kodu satır sayısı aynı seviyede, bu yüzden kabaca üst sınır 3-4x hız artışı olabilir; bu da yine de önemlidir.
  Kod kalite standardı aynı değilse bütün varsayımlar çöker.
- Bugün Copilot’un 8 satırlık bir düzeltmeyi 500 satıra çevirdiğini gördüm; yani lafı uzatma ciddi bir yan etki.
- İnsanlar yapay zekanın ürettiği kod satırı sayısına, hatta “hızlanma” derecesine göre değerlendirilmeye başlarsa, yeni modellerin daha fazla ne yapacağı gayet açık.
- “verimlilik = k * LOC, k > 1” varsayılıyor ama bu çok yanlış bir varsayım.
Kendi kendini oluşturan bir kod harness’inin de özyinelemeli öz-iyileştirme kapsamına girip girmediğini, yoksa bunun bizzat yapay zekanın kendisi olması gerekip gerekmediğini merak ediyorum.
Robotların robot yapması ya da kendi sonraki sürümünü oluşturmaya büyük katkı veren şeyler beni hep büyülemiştir.
https://buildyourcnc.com/products/cnc-machine-blacktoe-v4-2x...
Bu kontrplağı kesen bir CNC router ve CNC router’ın kestiği kontrplaktan yapılıyor.
Kendi geliştirdiğim yapay zeka destekli kodlama ortamını da kendisini oluşturmaya optimize etmeye çalıştım: https://recursi.dev/
Yeni çıkmış ücretsiz açık kaynak olduğu için bahsetmem sorun olmaz umarım. HN bağlantısı henüz ilgi görmedi: https://news.ycombinator.com/item?id=48401022
Şahsen harness’in yapay zekanın kendisi kadar önemli olduğu ve model iyileştirmeleri bugün dursa bile yalnızca harness ile büyük ilerleme sağlanabileceğine dair biraz çılgın bir teorim var.
- Bence harness de buna dahil.
  Yapay zeka LLM ile aynı şey değil; bilgisayarın kendi kendine akıl yürütmesine yardım eden her türlü kod yapay zekadır. Bu anlamda harness de yapay zekadır.
- Doğrulanabilir işlerin geleceği muhtemelen modelin başlangıç durumunu ve hedefi doğrulaması, ardından işi giderek daha küçük doğrulanabilir alt görevlere ayırması olacak.
  /memory çalıştırmalar arası kalıcılığı üstleniyor, /dreaming ise bu bellek dosyaları ve çalıştırma verisi sonuçlarına dayanarak yeni fikirler getiriyor.
  Araştırma laboratuvarlarının hayal ettiği asenkron AGI yolunun bu taraf olduğunu düşünüyorum.
  Sınır yalnızca dünya ya da sistem hakkında sahip olunan sensör verisi, bekleyebileceğiniz zaman ve paralelleştirmeye ayırabileceğiniz maliyet.
  Bu tür doğrulanmış iş akışlarını kurup tekrar eğitime verirseniz, model alt yollar edinir; dünyaya dair bir sezgi geliştirip sezgiselmiş gibi davranabilir.
  Benim kişisel AGI testim şu: Bir kapının çalınıp açıldığı videolarla eğitilmiş bir model, ilk kez gördüğü bir mikrodalgayla karşılaştığında, yemek hazır olduğunda kapıyı çalmadan açabilir mi?
- Bu terimi kullanacaksanız, sonunda yapay zekanın başka yapay zekalar üretmesi gerekir.
  Bu yazı saçmalık ve harness’i vibe coding ile yapmışlar; sonuçta da belli oluyor.
  Sinir ağı tabanlı yapay zekada özyinelemeli öz-iyileştirmenin tam olarak ne anlama geldiği de belirsiz, baştan mümkün olup olmadığı bile kesin değil.
- Geleceği önden yakalamak istiyorsanız, her şeyden çok küçük modellerin harness’i bootstrap etmesi yönünde olacaktır.
- Bir kod harness’inin kendi kendini oluşturmasına özyinelemeli öz-iyileştirme demek, pazarlama diline fazla kapılmış olmak gibi geliyor.
“Kendi kendini oluşturabilen yapay zeka teknoloji tarihinde büyük bir ilerlemedir ve dünyaya muazzam iyilik getirebilir” türü ifadeleri artık kaldıramıyorum.
Anthropic öz-iyileşen yapay zeka yapabilsin ya da yapamasın, en başta bunu yapmasına izin verilmemeli diye düşünüyorum.
En azından sıkı denetim gerekir.
Anthropic’in hemen şimdi tekillik yaratabileceğini düşünmüyorum ama yapay zeka taraftarları bile bunun zaten varlıklı çok küçük bir azınlığın çıkarı uğruna toplumun tamamı için risk üreten bir iş olduğunu kabul etmeli.
- Makul bir düşünce, hatta doğru da olabilir.
  Ama burada konuştuğumuz şey, at çoktan 3 mil uzaklaştıktan sonra ahırın kapısını kapatmayı tartışmak gibi.
- Evet. Kaçınılmazlık söylemi yalnızca yapay zeka şirketlerinin işine yarıyor.
- Bunun için artık çok geç.
  Her durumda fazla güçlenen şirketler kamulaştırılabilir.
- Buna izin verilmemesi gerektiğini düşünmüyorum.
  Teknik sınırları bir kenara bıraksak bile bunu çevrelemek mümkün değil ve yakında sızması çok muhtemel; dolayısıyla faydayı yalnızca aşırı zengin küçücük bir kesim görmeyecek gibi.
“Kod satırı sayısı kusurlu bir göstergedir” şeklinde bir not eklemeleri iyi olmuş, ama bu düzeltmenin tahmini çarpanı “aşağı” yönlü ayarlaması doğru mu emin değilim
Özellikle aralığın yalnızca pozitif değerlerle sınırlı olmadığını düşününce daha da öyle
Kod üretkenliğini kod satırı sayısı ile ifade ederken negatif değerlerin de dahil edilmesi gerektiğine dair güçlü kanıtlar var; özellikle de yüksek kalite bölgesinde
Bunun en eski ve efsanevi örneklerinden biri https://www.folklore.org/Negative_2000_Lines_Of_Code.html
- Evet, benim de aklıma tam olarak bu gelmişti
  Negatif kod satırı sayısının hedef olduğuna inanıyorsanız, bu onların 8 kat daha kötü olduğu anlamına gelir
- Bildiğim kadarıyla LoC ile kesin kanıtlanmış tek korelasyon, hata sayısının LoC ile korelasyon göstermesidir
- Bu hikayeyi gerçekten seviyorum

Yapay zeka kendini yarattığında: Özyinelemeli öz-iyileştirmeye doğru ilerlememiz

Yapay zeka geliştirme döngüsünün evrimi

Dış dünyadan kanıtlar

Anthropic içindeki kanıtlar

Claude, Anthropic kodunun önemli bir kısmını yazıyor

Claude'un yazdığı kod "iyi" ve gelişiyor

Claude, başkalarının belirlediği hedeflere yönelik deney yürütmede yetkin

Claude, kendi deneylerini önermede gelişiyor

Claude, araştırma oturumlarını araştırma sonuçlarına götürmede gelişiyor

Anthropic'te gelecekte işlerin görünümü

Ya yanılıyorsak?

Olası gelecekler

Senaryo 1: Eğilimler durur, ancak mevcut yetenekler geniş çapta yayılır

Senaryo 2: Yapay zeka laboratuvarları bileşik verimlilik artışını sürdürür

Senaryo 3: Yapay zeka tam özyinelemeli öz-iyileştirmeye ulaşıp sonraki modelleri inşa eder

Ne yapmalıyız?

İlgili okumalar

2 yorum

Hacker News görüşleri