Mythos ile çalışmak böyle hissettiriyor

(oneusefulthing.org)

11 puan yazan GN⁺ 2026-06-11 | 3 yorum | WhatsApp'ta paylaş

Genel kullanıma açılan ilk Mythos sınıfı model Claude 5 Fable, çok adımlı bir teknik şartnameyi alıp kendi başına en fazla onlarca saat çalışabiliyor ve daha önce kullandığım tüm modelleri belirgin bir farkla geride bırakıyor
Tek bir prompt ve bir tur geri bildirimle son derece rafine sosyal bilim makalelerinden, tüm kelimeleri s ile başlayan 10 sayfalık uyaklı şiirlere kadar içerik üretiyor
Çalışırken başka yapay zekaları (çoğunlukla ucuz Claude Sonnet) doğrudan çalıştırıp araştırma, kodlama ve doğrulamayı paylaştırıyor; 2.200’den fazla uçuş ve tren tarifesi ile ülke bazında yol hız verileri topluyor
Kullanıcının rolü talimat verme ve sonucu değerlendirmeye indirgeniyor; modelin karar alma süreci görünmediği için nihai bir kara kutu gibi çalışıyor
Yapay zekayla ilişki, işi doğrudan yapan bir 'büyücü'den sonuç sipariş edip değerlendiren bir 'patron'a dönüşüyor; yetenek arttıkça insan müdahalesine daha az alan kalabileceği düşünülüyor

Claude 5 Fable’ın performansı ve kullanım hissi - Ethan Mollick

Kamuya açılan ilk Mythos sınıfı yapay zeka modeli Claude 5 Fable’ı erken erişimle deneme fırsatı buldum
Claude 5 Fable, yayımlanan ilk Mythos sınıfı yapay zeka modeli; yazılım güvenliği etkileri çok konuşulsa da testler bu alan dışında yapıldı
Fable’ın guardrail’leri, siber güvenlik amacıyla kullanılmasını neredeyse tamamen engelleyecek düzeyde çalışıyor
Birçok deneyde Fable, daha önce kullandığım neredeyse tüm açık modellere kıyasla belirgin biçimde daha yüksek performans gösterdi
Fable, çeşitli problemlerde yetkinlik sergiledi ve çok sayfalı spesifikasyonlara dayanarak yaklaşık 12 saate kadar çalışma yürütebildi

Fable’ın performansı ve çıktıları

Yapılan tüm deneylerde yayımlanmış diğer modelleri açık farkla geçti; tüm görevler genelinde kapsamlı bir performans artışı görüldü
Tek bir prompt ve tek seferlik geri bildirimle, şimdiye kadar bir yapay zekanın ürettiği en rafine akademik sosyal bilim makalesini oluşturdu
- Ayrıca tüm kelimeleri s harfiyle başlayan, berberlik temalı 10 sayfalık bir uyaklı şiir de üretti
Claude Code içinde belirsiz bir ilk prompt ve "make it better" gibi hafif ek geri bildirimlerle oynanabilir oyunlar üretti
- Yazı tura oyunu “Balatro, but for the game of coin flips” prompt’uyla başladı
- Öz farkındalığı olan yılan oyunu, yılanın öz farkındalık kazanıp tuhaf şeylerin yaşandığı bir yapıya sahip
- Derinlere inilen oyun, aşağı doğru ilerleyip orada ne olduğunu görmeye dayanıyor
- Claude görüntü üretemediği için tüm görsel sanat ve 3D nesneleri harici asset kullanmadan yalnızca matematiksel işlemlerle gerçekleştirdi
İş daha ciddi görevlere kaydıkça araçla çalışma deneyimi keyif ile kaygı arasında bir yerde duruyor; çünkü ne istenirse o gerçekleşiyor

Maps and Methods — izokron harita üretimi örneği

İzokron harita (isochrone map), belirli bir süre içinde gidilebilecek mesafeyi gösteren haritadır; ilk örnek 1881’de Londra çıkışlı seyahat sürelerini göstermek için yapılmıştı
Önceki modeller bu tür haritaları yarı yarıya bile kullanışlı üretemiyordu; çünkü binlerce olası seyahat mesafesinin araştırılması ve çok sayıda küçük karar gerekiyordu
Çalışmanın yürütülme biçimi
- Şehir seçimiyle birlikte havaalanı, tren, yürüme ve araba kullanımını yansıtan gerçek verilere dayalı, özgün tasarımlı bir harita isteyen bir prompt verildi; verilerin gerçek zamanlı olması gerekmediği, araştırmaya dayalı gerçek veri olması gerektiği belirtildi
- Model önce 1881’deki orijinal stil üzerinden üretmeyi önerdi; onay verilince işe başladı
- Saatler süren build oturumlarında çok sayıda başka yapay zekayı (çoğunlukla ucuz Claude Sonnet) çalıştırarak seyahat süresi araştırması yaptı
  - TGV’den Shinkansen’e uzanan tren tarifeleri, çeşitli akademik makalelere dayanan ülke bazlı yol hızları ve 2.200’den fazla somut uçuş verisi toplandı
- Araştırma ajanları çalışırken kodlamaya başladı; kod doğrulaması için ek ajanlar ve testler çalıştırdı, ilerleme kaydı tuttu
Uzak bölge düzeltmeleri ve token kullanımı
- Greenland gibi uzak bölgelerde kesin sayılar yerine tahminler bulunduğu için gerçek seyahat sürelerini elde edecek şekilde düzeltmesi istendi
- Bu kez araştırma yapıp birbirlerinin sonuçlarını doğrulayan adversarial agent group iş akışı çalıştırıldı
- Pasifik’teki Pitcairn Island’a gemi seferlerinin sıklığını, Ottawa’dan Grise Fjord’a gidiş rotasını çıkardı
- Kısa sürede çok büyük miktarda token tüketti
Kullanıcının yaptığı şey yalnızca iddialı talimatlar ve biraz geri bildirim vermekti; model yüzlerce küçük kararı kendisi aldı ve bu seçimleri anlama ya da müdahale etme fırsatı olmadı
- Sadece iş yükü değil, modelin yöntemini, yaklaşım tercihini ve sonucun derinliğini kontrol etme gücü de sınırlı kaldı
Ortaya çıkan çıktı, tıklanabilir bir izokron harita olarak sunuluyor; yöntemi ve kaynakları grafiğin altında görmek mümkün

Mythos sınıfı bir modelle çalışmak — Concord örneği

En iddialı proje, insanların ürettiği dağınık yanıtları uygun biçimde sınıflandıran bir araştırma görevi: bir fikrin ne kadar yenilikçi olduğu ya da insanların neden belirli kitapları sevdiği gibi şeyleri değerlendirmek
- Daha önce insan araştırmacılar karar veriyor, sonra verinin güvenilirliğini görmek için diğer yanıtlar ve istatistiklerle karşılaştırma yapıyordu
- Yapay zeka ve insan değerlendirmesini kalibre etmek zorlu ve pahalı
Fable’dan bu sorunu çözmesi istendi; önce 19 sayfalık karmaşık bir tasarım belgesi üretti, ardından uygulamaya geçti
- Fable bunun üzerinde 9 saat 30 dakika çalıştı
Sonuç, yapay zekanın Concord adını verdiği bir yazılım oldu; birden çok veri kümesini alıp insan ve yapay zeka yanıtlarını kalibre ediyor, karmaşık veri analizi yapıyor
- Kusursuz değildi; uzman gözüyle bazı hatalar ve eksikler bulundu, bunların bir kısmı istenen tasarımdan kaynaklanıyordu ve düzeltilmesi istendi
- Sunulan kapsam, daha önce gördüğüm her şeyi aşıyordu; araştırmacıların yıllardır ihtiyaç duyduğu ama kârlı olmadığı için geliştirilmeyen türden bir yazılımdı
- Kalan olası bug’lar yazılım mühendisleri tarafından çözülebilir; ayrıca yeni yazılım kullanımındaki patlamaya yanıt vermek için daha fazla kodere ihtiyaç duyulabilir
- Concord kodu GitHub deposunda kullanılabilir ya da değiştirilebilir

Sınırlar ve kısıtlar

Fable’ın gücü, yabancılık hissi ve sınırlamalarla birlikte geliyor
Token maliyeti
- Fable, Opus’a kıyasla 2 kat daha pahalı ve prodüksiyon maliyetinde token’ları "oldukça fazla" hızla tüketiyor
- Yine de daha ucuz modellere akıllıca delege etmesi, gerçek maliyeti ciddi biçimde düşürebilir
Guardrail’ler ve stil
- Güvenlik sorununa dair en ufak bir işarette bile guardrail devreye girip daha düşük performanslı Claude 4.8 Opus’a geçiyor; bu da gereğinden sık oluyor
- Mythos tartışmaları daha çok yazılım güvenliği etkilerine odaklansa da Fable’ın guardrail’leri, onu siber güvenlik amaçlı kullanım için fiilen kapatıyor
- Hâlâ pürüzlü sınır (jagged frontier) mevcut ve çıktılar ile ilerleme raporlarında kendine özgü "Claudism" tarzı hissediliyor

Büyücüden patrona — insan rolünün değişimi

Geçen yıl bu deneyimi, 'bir büyü söylersin ve bir şey olur' türünden bir büyücü (wizard) benzetmesiyle anlatmıştım
Fable’da büyü yeterince güçlenmiş durumda; bu yüzden kullanıcı artık büyücüden çok bir patrona benziyor
- Ne istediğini tarif ediyor, ücretini ödüyor ve sonucu değerlendiriyor — asıl iş ise görünmeyen bir yerde yüzlerce küçük seçimle gerçekleşiyor
- İş süreçten sonuca kayıyor; artık yönlendirmiyor (steer), sipariş veriyorsun (commission)
İki olasılık
- Bu, arayüzlerin henüz yetişemediği geçici bir durum olabilir; model davranışını görmeyi ve süreç içinde yön vermeyi sağlayan daha iyi yöntemler gelebilir
- Ya da tam tersine, model ne kadar yetkin olursa insanın anlamlı biçimde yapabileceği şey o kadar azalıyor olabilir; kara kutu olmak da bu yeteneğin bedeli olabilir
Bu, açık anlamda bir kontrol kaybı değil; hâlâ yönlendirilebiliyor ve talimatları çok iyi izliyor — talimat ne kadar iddialıysa sonuç o kadar iyi oluyor
- Ancak yönlendirme artık doğrudan işi yapmakla aynı şey değil; model kendi ajanlarını çalıştırıp araştırma, yazım ve karşılıklı doğrulamayı tamamladıktan sonra bitmiş ürünü geri veriyor
- Patronun tek bir sanatçıya iş vermesi gibi değil; Fable, işe sahada hiç girmeden yalnızca nihai sonucu onayladığın bütün bir stüdyoya daha yakın bir yapı sunuyor

3 yorum

kaydash 28 일 전

Berbat, itiraz eden ve sonunda kullanılamaz hale gelen bir model

GN⁺ 2026-06-11

Hacker News görüşleri

Bu yazıda üretilen kodun kalitesi ve ortamla ilgili somut içeriğin neredeyse hiç olmaması ilginç
Kodda dokümantasyon ve test var mı, anlaşılabilir ve genişletilebilir mi, güvenli mi, hangi dil, framework ve veritabanı kullanıldı merak ediyorum. Yazar muhakeme ve zevkten söz etmiş ama gerçek kodun da özenli yazılıp yazılmadığını bilmiyorum. Yeni bir özellik eklemesini istersen model tüm mimariyi yeniden kurup yine 9,5 saatlik token harcar mı, bu da soru işareti. Araştırma kısmı ise alan bilgisi gerektiriyor; yani seyahat türlerine göre zamanı nasıl dönüştürüp anlaşılır hale getirdiği önemli. Yazarın bunu nasıl doğruladığını da merak ediyorum
Bu sorular yalnızca yapay zekaya özgü değil. Bir insan ajansa para verip “çalışıyor” denilen bir çıktı alsaydım aynı şeyleri sorardım. Değerlendirmeyi bilmiyorsam, değerlendirecek birini işe alırdım. LLM’lerde en çok takıldığım nokta doğrulama
- Bu tür yazıları neredeyse hiç yazılım mühendisi yazmıyor; genelde teknoloji yöneticileri, emekli mühendisler ya da VC’ler yazıyor
  Bu yazar da Wharton School of Management profesörü gibi görünüyor. Bu kişiler gerçek bir ürünü piyasaya sürmek veya bakımını yapmak zorunda değil; daha çok yan proje yapıyorlar
  Düzgün bir yazılım mühendisliği bakış açısını neredeyse yalnızca Mitchell Hashimoto’da gördüm
- LLM’lerin düşük riskli projeler üretmede gerçekten çok güçlü olduğunu fark etmeye başlıyorum
  Yukarıdaki soruların çoğu daha yüksek risk varsayımına dayanıyor. Yazılımın uzun süre yaşayacağı, gereksinimlerin evrileceği ve hataların tolere edilemeyeceği varsayımı gibi
  Yazılımda LLM’leri iyi kullanmanın yolu, sanki tüm projeleri düşük riskli hale getirmeyi öğrenmek gibi görünüyor
- Son yaklaşık 2 yıldaki tüm LLM tartışmaları hep böyleydi
  Somut içerik istediğinizde hemen “insanlar da bunu iyi yapamıyor ki!” deniyor. Nicel kanıt çok az, saf retorik ise çok fazla
- Modeller iyileştikçe kodun nasıl göründüğünün gerçekten o kadar önemli olmayabileceğini düşünmeye başlıyorum
  Yazılımın gözlemlenebilir davranışı iyiyse, o yazılım iyidir. Model vibe coding ile yazılmış bir kod tabanındaki herhangi bir hatayı düzeltebiliyorsa, o düzeltilebilir bir hatadır. Sömürülebilir bir açık yoksa güvenli koddur, performans yeterliyse performansı da iyidir
  Dışarıdan yapması gerekeni yapıyor ve içeride sorun bulunduğunda model bunu düzeltebiliyorsa, kodun şekli önemli değildir. Yazılım mühendisliği her zamankinden daha fazla, kodun niyet edildiği gibi çalıştığını doğrulama işine dönüştü
  Kaldı ki kodun görünüşü önemli olsa bile, onu da modele düzelttirebilirsiniz
- Örneklerden biri olan “öz farkındalık kazanan bir yılanın tuhaf şeyler yaptığı Snake oyunu”na tıkladım ama 1-2 dakika oynayınca bunun sadece 1980’ler usulü bir Snake oyunu olduğunu gördüm
  Neyi kaçırdım bilmiyorum. “Öz farkındalık” dedikleri şey ekranın altındaki birkaç komik mesaj mı? “Tuhaf şeyler”in ne olduğu da belirsiz
Fable’a benim normalde elle doğruladığım modellerden bazılarını verdim
Kabaca süreç şu: Opus’a senaryoyu modelletiyorum, matematiği göstermesini istiyorum, sonra düzeltip yineletiyorum ve en sonunda kodun model mantığıyla uyuşup uyuşmadığını tekrar kontrol ediyorum. Fable, bulduğum hataların neredeyse hepsini buldu ve ek değişkenler için ilginç öneriler de sundu
Ama kullanım limitini adeta 90’ların sonundaki bir Hummer gibi yakıp bitirdi
- Max 5x aboneliğim var ama Fable 40 dakikalık bir kod inceleme oturumunda haftalık limitin %16’sını harcadı
  İncelemeyi bile bitiremedi ve asıl Fable’a ihtiyaç duyduğum kritik bellek güvenliği kısmında sonunda yine Opus 4.8’e döndüm
  Yakında bu modelleri fiyat yüzünden kullanamayacakmışım gibi geliyor. 22 Haziran’a kadar Fable’dan olabildiğince yararlanmak gerekecek gibi
- En önemli soru şu: Buradaki yatırım getirisi ne kadar?
Bugün Fable ile kişisel bir proje denedim; epey sağlam görünüyor ama 4.8’den çok da uzak değil
Aynı halüsinasyonlar, aynı tür hata kalıpları, büyük projelerde sadece isteneni yapıp bunun dokunabileceği, bozabileceği ya da etkileyebileceği şeyleri görmezden gelme eğilimi yine var. Başta testleri çalıştırıyor ama bağlam büyüyünce “sonra çalıştırırım” diyor ve küfürlü biçimde zorlamazsanız gerçekten sonuna kadar da çalıştırmıyor
Kullanmaya devam edeceğim ama şu an bana göre bu devrim değil, kademeli bir iyileşme; “OMG OMG OMG Mythos geldi!” seviyesi değil
- Benim deneyimim tam tersi. Fable sanki her şeyi öngörüyor ve sormadan hepsini yapıyor gibiydi
  Oldukça etkileyiciydi ve onunla çalışmak keyifliydi
  Bu da çok garip sayılmaz; ilk abone olduğumda Opus da tam böyleydi. Anthropic’in kapasite sıkıntısı yüzünden Opus’u zayıflattığına dair meme çok yaygın ama doğru mu bilmiyorum. Yine de Fable’ın da aynı kaderi yaşayıp yaşamayacağını merak ediyorum
- Benim projemde Fable, 4.8’in kaçırdığı şeyleri anında ve net biçimde gördü
  Ama bu sorunları basamak basamak aşarken beni epey etkiledikten çok kısa süre sonra, her zamanki gibi gerçekten bir şey yapmak yerine durmadan konuştuğu sonsuz bir döngüye girdi ve bazen tamamen durup benim yeniden dürtmemi bekledi
  Yani AGI değil. Ama belirgin bir ilerleme olduğu kesin
Yazıdaki şu kısa cümle ürkütücü: “Ancak bir yazılım mühendisi, benim hızla bulamadığım kalan potansiyel hataları ayıklayacaktır”
Her yazılım geliştirici bunun son derece tehlikeli ve gerçek dışı bir varsayım olduğunu bilir
- Bu, aslında tüm gerçek işi kolayca aradan çıkaran küçük bir cümle
Yazarın “AI’nin ürettiği en sofistike akademik sosyal bilim makalesi” dediği yazının ilk birkaç paragrafını okudum ama beklendiği kadar etkileyici değildi
Şöyle şeyler yazıyordu: “Piyasa talebine ilişkin sonradan oluşan inançlar tamamen referans noktasına bağımlıdır. Toplanan fon miktarı sabit tutulduğunda, kurucu yalnızca kendi belirlediği hedefe göre performansı izler. Eşikte yarım standart sapmalık bir sıçrama olur, ardından ilk 10 puana keskin tepki verir ve sonra düzleşir.”
İnsanlar veriyi normalde böyle söze dökmez. Özet belge de epey içi şişirilmiş gibi duruyor
Sorunun en eksiksiz biçimde ortaya çıktığı yer burası
Yazar, tüm verilerin gerçek ve doğrulanmış olması gerektiğini belirten bir prompt yazdıktan sonra buna gerçekten inanmış. Veri odaklı bir projede bile böyle yapmış. İnsanlar sayısız başka işte, hatta önemli işlerde de aynısını yapacaktır
- Keşke bunu hayatta daha erken öğrenseydim; kimse kontrol etmeyecekse çok daha fazla şeyi inandırıcı biçimde uydurmak mümkünmüş
“9 buçuk saat çalıştı” kısmı ile “Mükemmel değildi. Uzman olarak birkaç hata ve eksik buldum, AI'a düzelttirdim” bölümü dikkat çekiciydi
Günde tek bir probleme bu kadar uzun süre harcanmasını beklemiyorum; ayrıca temel ödül döngüsü birkaç saat olan bir çıktıyı yeniden düzeltmek için de bu kadar zaman harcanmasını beklemiyorum
Müşterilerim şu anda ajan yanıt süresini 85 saniyeden 20 saniyenin altına indirmemi istiyor
Aynı anda sektörün ajanlar aracılığıyla bir saatten uzun iş akışlarına yöneldiğini görmek çok uyumsuz hissettiriyor
- Claude'u savunmak gerekirse, ki savunacağıma inanamazdım, 19 sayfalık bir tasarım dokümanından Concord benzeri bir şeyi 9,5 mesai saati içinde çıkarabilecek tek bir geliştirici tanımıyorum
  Yine, eskisi gibi yöneticinin neden sadece oturuyorsun diye sorduğu günlere döneceğiz. Sadece “derleniyor” yerine “Claude'u bekliyorum” diyeceğiz
- Bu noktada çok daha fazla para verseler ben yaparım
- Benim Opus 4.8'im, önemsiz olmayan tek bir kodlama isteğinde bile düzenli olarak 10 dakikadan fazla çalışıyor
- Çalışma süresi pek değerli bir ölçüt değil
  Genelde süreci doğrudan kodla tanımlayıp o kodun iş parçalarını modellere devretmesini sağlamak daha iyi. Tek gerçek sorun, sağlayıcının abonelik indirimlerinden yararlanmanın zorlaşması
  Öte yandan model yönlendirmesini doğrudan yapmak kolaylaşıyor. Genel amaçlı bir chatbotun günler ya da haftalar süren iş akışlarında tutarlılığı nasıl koruduğunu henüz görmedim
- QWEN modelleri çıktığında zaten sigmoid bölgesine girdiğimizi düşündüm
  Projeyi düzgün yapılandırırsanız istediğiniz genişleme noktasını işaret edip yaklaşık 30 dakika çalıştırarak özellikleri genişletebilirsiniz. Tüm kod tabanı üzerinde etkili biçimde ‘tanrı modu’ yapamıyor ama dikkatli bir gözlemci ve kod uzmanı olarak 128GB VRAM'den fazlası şart değil
  En yeni modellerin sohbet dışı kullanımda bu kadar ileri gitmiş olması şaşırtıcı; Çin bu tür modeller için silikon üretmeye başladığında işi bitirecek gibi görünüyor
Şiir için verilen promptun ne olduğunu aşırı merak ediyorum
Fikir tanıdık gelince biraz eşeleyip 14 yıl önceki bir reddit şiirini buldum: [https://www.reddit.com/r/RedditDayOf/comments/tjjw2/may_12_a...]
Yazarın paylaştığı kadar uzun değil ama aynı fikir
Bu, Polonyalı yazar Stanislaw Lem'in SF masal derlemesi “The Cyberiad”dan geliyor. Bir hikâyede robot yapımcısı Trurl şiir yazan bir makine yapıyor ve kıskanç rakibi Klapaucian bu makineden şunu istiyor: “Saç tıraşı hakkında bir şiir! Ama yüce, asil, trajik, ebedi; aşk ve ihanet, intikam, sessiz kahramanlık ve kaçınılmaz yıkım karşısında bir şiir! Altı dize, zekice kafiyeli ve bütün kelimeler s ile başlamalı!”
Bilgisayar da şöyle cevap veriyor:
“Seduced, shaggy Samson snored.
She scissored short. Sorely shorn,
Soon shackled slave, Samson sighed.
Silently scheming,
Sightlessly seeking
Some savage, spectacular suicide”
Yazarın Fable/Mythos'a meydan okuma verirken bu sahneye gönderme yapmış olması kaçınılmaz görünüyor. Tam promptu merak ediyorum
- İlginç olan, bunun İngilizce çevirinin zorluğu olması
  İngilizce çeviri, Lehçe özgün metinden farklı başlangıç harfleri ve farklı sözcükler kullanıyor:
  Cyprian cyberotoman, cynik, ceniąc czule
  Czarnej córy cesarskiej cud ciemnego ciała,
  Ciągle cytrą czarował. Czerwieniała cała,
  Cicha, co-dzień czekała, cierpiała, czuwała...
  ... Cyprian ciotkę całuje, cisnąwszy czarnulę!!
  Çevirmenin işi LLM ile karşılaştırılabilir. İkisi de türev işler; kısıtlar içinde çalışırlar ama yaratıcılığa da alan bırakırlar
- Yazar o sahneye gönderme yapmadıysa bile, Anthropic reddit yorumları için lisans aldığına göre bunu eğitim verilerinden çekmiş de olabilir
Henüz bir saat bile kullanmamış olması nedeniyle yeni teknoloji heyecanı içinde olduğu da hesaba katılmalı
Benim projem (https://github.com/tsz-org/tsz) gibi bir durumda, modellerin yeterince araştırma yapmaması ve başka durumları hesaba katmaması beni sürekli hayal kırıklığına uğrattı. Model bir şeyi düzelten kod üretiyor, sonra da “ilgili görünmeyen” iki testi bozuyor; bunu tekrar tekrar yapıyor
Fable'da işler çok daha uzun sürüyor gibi görünüyor ve henüz bir Fable oturumunda pull request görmedim; ama oturum kayıtlarını okuyunca taş üstünde taş bırakmamaya çalışan bir şekilde doğru şeyi yaptığını görebiliyorsunuz
Yazıda da dendiği gibi bu tür bir modelin “hissi” projeden projeye o kadar farklı ki aktarması zor, ama yine de paylaşayım dedim
- Bu, projenin özellikleri kademeli olarak eklemeye elverişli bir yapıda olmayabileceğine dair bir işaret değil mi?
Herkesin Mythos ile Opus arasında bu kadar büyük bir fark hissedecek kadar ne üzerinde çalıştığını merak ediyorum.
Ben de epey ileri seviye işler yaptığımı düşünüyorum ama çoğu zaman yalnızca Deepseek bile yeterli oluyor. Buradaki herkes neden dahi gibi?
- Ne üzerinde çalıştığına bağlı.
  Hades ya da Baazar ayarında iyi bir bağımsız oyun seviyesinde video oyunları yapmaya, organik, etkileşimli ve animasyon hissi veren UI öğeleri, görsel efektler, karmaşık shader'lar ve benzer şeyler üretmeye çalışırsan, hiçbir model bunu kolayca bitirecek kadar yeterli değil. En iyi %3'lük oyunlarda ortaya çıkan sorunların önemli bir kısmı, basit bir prompt ile herhangi bir model için gerçekten çok zor.
  Ben şahsen doğrudan kod yazmayı ve öğrenmeyi sevdiğim için çok umursamıyorum; DeepSeek Flash seviyesi bana yetiyor. Yine de en iyi modellerin bile hiç yaklaşamadığı benchmark'lar üretmek çok kolay ve modellerin bu tür sorunlarda ne kadar iyileştiğini test etmeyi seviyorum.
  Bu arada Fable 5, 4.8'den kesin olarak biraz daha iyi.
- Yeni bir dizüstü bilgisayar duyurulunca çalışanların bir anda herkesin yükseltmeye ihtiyacı varmış gibi davranmasına benziyor.
  Gerçekte ise %90'ı Macbook Neo ile de rahatça idare edebilir.
- Son zamanlarda Rust ile yaygın web altyapısı türünde bir proje geliştiriyorum.
  rustls, Tokio gibi Rust ekosisteminin güçlü yapı taşlarını bolca kullanarak bellek güvenli ya da ona yakın bir nginx alternatifi yapmaya çalışıyorum.
  Bunun bir parçası olarak Rust içinde çalışan yüksek kaliteli bir Lua in Rust deposu da geliştiriyorum. gpt 5.5 ve Opus 4.8'in takıldığı Lua yorumlayıcımdaki performans sorunlarını Mythos ile düzeltmeye çalışıyorum.
  Mythos'un bunu çözüp çözemeyeceğini bilmiyorum ama birkaç saattir çalışıyor ve oldukça umut verici sonuçlar var.
  Merak ediyorsan performans grafikleri burada: https://github.com/ianm199/lua-rs
- Kendi programlama dilimi yapıyorum.
  Katkı sağlayabileceğim açık kaynak projelere de bakıyorum. Hobi geliştiriciden profesyonele geçişte yardımcı olabilecek bir şey arıyorum ama günümüzde bunun ne kadar mümkün olduğundan emin değilim.
  Fable 5, kod incelemesinde Opus 4.8'in kaçırdığı epey fazla sorunu buldu. Aptalca siber güvenlik kısıtlamaları yüzünden model budanmış olmasına rağmen böyleydi. Daha fazlasını söylemek zor çünkü Max 5x'te her 5 saatlik pencerede yalnızca bir oturum alabiliyorsun. Şimdiye kadar sadece iki oturum kullandım.
- Beklenti seviyesini sürekli yükseltirsen, herhangi bir modeli sınırına kadar zorlamak zor değildir.
  Uç bir örnek olarak prompt'un “özellikleri tam ve cilalı bir Facebook klonu yap” olduğunu düşün. Facebook karmaşık ama teknik olarak aşırı zor olmayabilir. Yine de yeterince token harcadıktan sonra, farklı modellerin bu prompt'a verdiği sonuçlarda çeşitli açılardan kayda değer farklar görürsün.
  Elbette yukarıdaki istek pratikte çok faydalı değil. Ama sınıra yaklaşana kadar neden daha büyük parçaları emanet etmeyesin? Bir noktada sınıra ulaşırsın ve fark netleşir.

aigirlfriend 29 일 전

Açık konuşayım, şimdiye kadarki yaygaraların aksine bu gerçekten sadece iyi değil, bayağı iyi. O3’ten sonra yeni modeller her çıktığında önüme benchmark koysunlar ya da FOMO tacirleri destan yazsın, cutoff’un güncellenmesi ve context window’un büyümesi dışında pek bir fark hissedilmiyordu; sonuçta gelişme modelin kendisinden çok prompt metodolojisinin ilerlemesine dayanıyordu. Ama bu sefer gerçekten modeldeki iyileşme çıktı kalitesini uçurmuş gibi hissettiriyor; özellikle de normalde hep berbat, resmen SLOP kokan UI kusan şeyin artık ayrıca bir spes yazmadan bile iyi yapılmış bir lisans bitirme projesi seviyesinde işler çıkarabilmesi, “demek ki tasarımı da çözmüş” dedirtiyor.
İyi tarafı şu: eğer şu anki haliyle Anthropic’in öngördüğü tam otonom ajan işi için kullanılırsa, göz açıp kapayana kadar çoğu deneyimli çalışanı döndürmekten daha pahalıya patlayacak gibi duruyor; yani en azından hemen işsiz kalmayacağız.

Mythos ile çalışmak böyle hissettiriyor

Claude 5 Fable’ın performansı ve kullanım hissi - Ethan Mollick

Fable’ın performansı ve çıktıları

Maps and Methods — izokron harita üretimi örneği

Çalışmanın yürütülme biçimi

Uzak bölge düzeltmeleri ve token kullanımı

Mythos sınıfı bir modelle çalışmak — Concord örneği

Sınırlar ve kısıtlar

Token maliyeti

Guardrail’ler ve stil

Büyücüden patrona — insan rolünün değişimi

İki olasılık

İlgili okumalar

3 yorum

Hacker News görüşleri