1 puan yazan GN⁺ 4 시간 전 | 1 yorum | WhatsApp'ta paylaş
  • Genel kullanıma açılan ilk Mythos sınıfı model Claude 5 Fable, çok adımlı bir teknik şartnameyi alıp kendi başına en fazla onlarca saat çalışabiliyor ve daha önce kullandığım tüm modelleri belirgin bir farkla geride bırakıyor
  • Tek bir prompt ve bir tur geri bildirimle son derece rafine sosyal bilim makalelerinden, tüm kelimeleri s ile başlayan 10 sayfalık uyaklı şiirlere kadar içerik üretiyor
  • Çalışırken başka yapay zekaları (çoğunlukla ucuz Claude Sonnet) doğrudan çalıştırıp araştırma, kodlama ve doğrulamayı paylaştırıyor; 2.200’den fazla uçuş ve tren tarifesi ile ülke bazında yol hız verileri topluyor
  • Kullanıcının rolü talimat verme ve sonucu değerlendirmeye indirgeniyor; modelin karar alma süreci görünmediği için nihai bir kara kutu gibi çalışıyor
  • Yapay zekayla ilişki, işi doğrudan yapan bir 'büyücü'den sonuç sipariş edip değerlendiren bir 'patron'a dönüşüyor; yetenek arttıkça insan müdahalesine daha az alan kalabileceği düşünülüyor

Claude 5 Fable’ın performansı ve kullanım hissi - Ethan Mollick

  • Kamuya açılan ilk Mythos sınıfı yapay zeka modeli Claude 5 Fable’ı erken erişimle deneme fırsatı buldum
  • Claude 5 Fable, yayımlanan ilk Mythos sınıfı yapay zeka modeli; yazılım güvenliği etkileri çok konuşulsa da testler bu alan dışında yapıldı
  • Fable’ın guardrail’leri, siber güvenlik amacıyla kullanılmasını neredeyse tamamen engelleyecek düzeyde çalışıyor
  • Birçok deneyde Fable, daha önce kullandığım neredeyse tüm açık modellere kıyasla belirgin biçimde daha yüksek performans gösterdi
  • Fable, çeşitli problemlerde yetkinlik sergiledi ve çok sayfalı spesifikasyonlara dayanarak yaklaşık 12 saate kadar çalışma yürütebildi

Fable’ın performansı ve çıktıları

  • Yapılan tüm deneylerde yayımlanmış diğer modelleri açık farkla geçti; tüm görevler genelinde kapsamlı bir performans artışı görüldü
  • Tek bir prompt ve tek seferlik geri bildirimle, şimdiye kadar bir yapay zekanın ürettiği en rafine akademik sosyal bilim makalesini oluşturdu
  • Claude Code içinde belirsiz bir ilk prompt ve "make it better" gibi hafif ek geri bildirimlerle oynanabilir oyunlar üretti
    • Yazı tura oyunu “Balatro, but for the game of coin flips” prompt’uyla başladı
    • Öz farkındalığı olan yılan oyunu, yılanın öz farkındalık kazanıp tuhaf şeylerin yaşandığı bir yapıya sahip
    • Derinlere inilen oyun, aşağı doğru ilerleyip orada ne olduğunu görmeye dayanıyor
    • Claude görüntü üretemediği için tüm görsel sanat ve 3D nesneleri harici asset kullanmadan yalnızca matematiksel işlemlerle gerçekleştirdi
  • İş daha ciddi görevlere kaydıkça araçla çalışma deneyimi keyif ile kaygı arasında bir yerde duruyor; çünkü ne istenirse o gerçekleşiyor

Maps and Methods — izokron harita üretimi örneği

  • İzokron harita (isochrone map), belirli bir süre içinde gidilebilecek mesafeyi gösteren haritadır; ilk örnek 1881’de Londra çıkışlı seyahat sürelerini göstermek için yapılmıştı
  • Önceki modeller bu tür haritaları yarı yarıya bile kullanışlı üretemiyordu; çünkü binlerce olası seyahat mesafesinin araştırılması ve çok sayıda küçük karar gerekiyordu
  • Çalışmanın yürütülme biçimi

    • Şehir seçimiyle birlikte havaalanı, tren, yürüme ve araba kullanımını yansıtan gerçek verilere dayalı, özgün tasarımlı bir harita isteyen bir prompt verildi; verilerin gerçek zamanlı olması gerekmediği, araştırmaya dayalı gerçek veri olması gerektiği belirtildi
    • Model önce 1881’deki orijinal stil üzerinden üretmeyi önerdi; onay verilince işe başladı
    • Saatler süren build oturumlarında çok sayıda başka yapay zekayı (çoğunlukla ucuz Claude Sonnet) çalıştırarak seyahat süresi araştırması yaptı
      • TGV’den Shinkansen’e uzanan tren tarifeleri, çeşitli akademik makalelere dayanan ülke bazlı yol hızları ve 2.200’den fazla somut uçuş verisi toplandı
    • Araştırma ajanları çalışırken kodlamaya başladı; kod doğrulaması için ek ajanlar ve testler çalıştırdı, ilerleme kaydı tuttu
  • Uzak bölge düzeltmeleri ve token kullanımı

    • Greenland gibi uzak bölgelerde kesin sayılar yerine tahminler bulunduğu için gerçek seyahat sürelerini elde edecek şekilde düzeltmesi istendi
    • Bu kez araştırma yapıp birbirlerinin sonuçlarını doğrulayan adversarial agent group iş akışı çalıştırıldı
    • Pasifik’teki Pitcairn Island’a gemi seferlerinin sıklığını, Ottawa’dan Grise Fjord’a gidiş rotasını çıkardı
    • Kısa sürede çok büyük miktarda token tüketti
  • Kullanıcının yaptığı şey yalnızca iddialı talimatlar ve biraz geri bildirim vermekti; model yüzlerce küçük kararı kendisi aldı ve bu seçimleri anlama ya da müdahale etme fırsatı olmadı
    • Sadece iş yükü değil, modelin yöntemini, yaklaşım tercihini ve sonucun derinliğini kontrol etme gücü de sınırlı kaldı
  • Ortaya çıkan çıktı, tıklanabilir bir izokron harita olarak sunuluyor; yöntemi ve kaynakları grafiğin altında görmek mümkün

Mythos sınıfı bir modelle çalışmak — Concord örneği

  • En iddialı proje, insanların ürettiği dağınık yanıtları uygun biçimde sınıflandıran bir araştırma görevi: bir fikrin ne kadar yenilikçi olduğu ya da insanların neden belirli kitapları sevdiği gibi şeyleri değerlendirmek
    • Daha önce insan araştırmacılar karar veriyor, sonra verinin güvenilirliğini görmek için diğer yanıtlar ve istatistiklerle karşılaştırma yapıyordu
    • Yapay zeka ve insan değerlendirmesini kalibre etmek zorlu ve pahalı
  • Fable’dan bu sorunu çözmesi istendi; önce 19 sayfalık karmaşık bir tasarım belgesi üretti, ardından uygulamaya geçti
    • Fable bunun üzerinde 9 saat 30 dakika çalıştı
  • Sonuç, yapay zekanın Concord adını verdiği bir yazılım oldu; birden çok veri kümesini alıp insan ve yapay zeka yanıtlarını kalibre ediyor, karmaşık veri analizi yapıyor
    • Kusursuz değildi; uzman gözüyle bazı hatalar ve eksikler bulundu, bunların bir kısmı istenen tasarımdan kaynaklanıyordu ve düzeltilmesi istendi
    • Sunulan kapsam, daha önce gördüğüm her şeyi aşıyordu; araştırmacıların yıllardır ihtiyaç duyduğu ama kârlı olmadığı için geliştirilmeyen türden bir yazılımdı
    • Kalan olası bug’lar yazılım mühendisleri tarafından çözülebilir; ayrıca yeni yazılım kullanımındaki patlamaya yanıt vermek için daha fazla kodere ihtiyaç duyulabilir
    • Concord kodu GitHub deposunda kullanılabilir ya da değiştirilebilir

Sınırlar ve kısıtlar

  • Fable’ın gücü, yabancılık hissi ve sınırlamalarla birlikte geliyor
  • Token maliyeti

    • Fable, Opus’a kıyasla 2 kat daha pahalı ve prodüksiyon maliyetinde token’ları "oldukça fazla" hızla tüketiyor
    • Yine de daha ucuz modellere akıllıca delege etmesi, gerçek maliyeti ciddi biçimde düşürebilir
  • Guardrail’ler ve stil

    • Güvenlik sorununa dair en ufak bir işarette bile guardrail devreye girip daha düşük performanslı Claude 4.8 Opus’a geçiyor; bu da gereğinden sık oluyor
    • Mythos tartışmaları daha çok yazılım güvenliği etkilerine odaklansa da Fable’ın guardrail’leri, onu siber güvenlik amaçlı kullanım için fiilen kapatıyor
    • Hâlâ pürüzlü sınır (jagged frontier) mevcut ve çıktılar ile ilerleme raporlarında kendine özgü "Claudism" tarzı hissediliyor

Büyücüden patrona — insan rolünün değişimi

  • Geçen yıl bu deneyimi, 'bir büyü söylersin ve bir şey olur' türünden bir büyücü (wizard) benzetmesiyle anlatmıştım
  • Fable’da büyü yeterince güçlenmiş durumda; bu yüzden kullanıcı artık büyücüden çok bir patrona benziyor
    • Ne istediğini tarif ediyor, ücretini ödüyor ve sonucu değerlendiriyor — asıl iş ise görünmeyen bir yerde yüzlerce küçük seçimle gerçekleşiyor
    • İş süreçten sonuca kayıyor; artık yönlendirmiyor (steer), sipariş veriyorsun (commission)
  • İki olasılık

    • Bu, arayüzlerin henüz yetişemediği geçici bir durum olabilir; model davranışını görmeyi ve süreç içinde yön vermeyi sağlayan daha iyi yöntemler gelebilir
    • Ya da tam tersine, model ne kadar yetkin olursa insanın anlamlı biçimde yapabileceği şey o kadar azalıyor olabilir; kara kutu olmak da bu yeteneğin bedeli olabilir
  • Bu, açık anlamda bir kontrol kaybı değil; hâlâ yönlendirilebiliyor ve talimatları çok iyi izliyortalimat ne kadar iddialıysa sonuç o kadar iyi oluyor
    • Ancak yönlendirme artık doğrudan işi yapmakla aynı şey değil; model kendi ajanlarını çalıştırıp araştırma, yazım ve karşılıklı doğrulamayı tamamladıktan sonra bitmiş ürünü geri veriyor
    • Patronun tek bir sanatçıya iş vermesi gibi değil; Fable, işe sahada hiç girmeden yalnızca nihai sonucu onayladığın bütün bir stüdyoya daha yakın bir yapı sunuyor

1 yorum

 
GN⁺ 4 시간 전
Hacker News görüşleri
  • Bu yazıda üretilen kodun kalitesi ve ortamla ilgili somut içeriğin neredeyse hiç olmaması ilginç
    Kodda dokümantasyon ve test var mı, anlaşılabilir ve genişletilebilir mi, güvenli mi, hangi dil, framework ve veritabanı kullanıldı merak ediyorum. Yazar muhakeme ve zevkten söz etmiş ama gerçek kodun da özenli yazılıp yazılmadığını bilmiyorum. Yeni bir özellik eklemesini istersen model tüm mimariyi yeniden kurup yine 9,5 saatlik token harcar mı, bu da soru işareti. Araştırma kısmı ise alan bilgisi gerektiriyor; yani seyahat türlerine göre zamanı nasıl dönüştürüp anlaşılır hale getirdiği önemli. Yazarın bunu nasıl doğruladığını da merak ediyorum
    Bu sorular yalnızca yapay zekaya özgü değil. Bir insan ajansa para verip “çalışıyor” denilen bir çıktı alsaydım aynı şeyleri sorardım. Değerlendirmeyi bilmiyorsam, değerlendirecek birini işe alırdım. LLM’lerde en çok takıldığım nokta doğrulama

    • Bu tür yazıları neredeyse hiç yazılım mühendisi yazmıyor; genelde teknoloji yöneticileri, emekli mühendisler ya da VC’ler yazıyor
      Bu yazar da Wharton School of Management profesörü gibi görünüyor. Bu kişiler gerçek bir ürünü piyasaya sürmek veya bakımını yapmak zorunda değil; daha çok yan proje yapıyorlar
      Düzgün bir yazılım mühendisliği bakış açısını neredeyse yalnızca Mitchell Hashimoto’da gördüm
    • LLM’lerin düşük riskli projeler üretmede gerçekten çok güçlü olduğunu fark etmeye başlıyorum
      Yukarıdaki soruların çoğu daha yüksek risk varsayımına dayanıyor. Yazılımın uzun süre yaşayacağı, gereksinimlerin evrileceği ve hataların tolere edilemeyeceği varsayımı gibi
      Yazılımda LLM’leri iyi kullanmanın yolu, sanki tüm projeleri düşük riskli hale getirmeyi öğrenmek gibi görünüyor
    • Son yaklaşık 2 yıldaki tüm LLM tartışmaları hep böyleydi
      Somut içerik istediğinizde hemen “insanlar da bunu iyi yapamıyor ki!” deniyor. Nicel kanıt çok az, saf retorik ise çok fazla
    • Modeller iyileştikçe kodun nasıl göründüğünün gerçekten o kadar önemli olmayabileceğini düşünmeye başlıyorum
      Yazılımın gözlemlenebilir davranışı iyiyse, o yazılım iyidir. Model vibe coding ile yazılmış bir kod tabanındaki herhangi bir hatayı düzeltebiliyorsa, o düzeltilebilir bir hatadır. Sömürülebilir bir açık yoksa güvenli koddur, performans yeterliyse performansı da iyidir
      Dışarıdan yapması gerekeni yapıyor ve içeride sorun bulunduğunda model bunu düzeltebiliyorsa, kodun şekli önemli değildir. Yazılım mühendisliği her zamankinden daha fazla, kodun niyet edildiği gibi çalıştığını doğrulama işine dönüştü
      Kaldı ki kodun görünüşü önemli olsa bile, onu da modele düzelttirebilirsiniz
    • Örneklerden biri olan “öz farkındalık kazanan bir yılanın tuhaf şeyler yaptığı Snake oyunu”na tıkladım ama 1-2 dakika oynayınca bunun sadece 1980’ler usulü bir Snake oyunu olduğunu gördüm
      Neyi kaçırdım bilmiyorum. “Öz farkındalık” dedikleri şey ekranın altındaki birkaç komik mesaj mı? “Tuhaf şeyler”in ne olduğu da belirsiz
  • Fable’a benim normalde elle doğruladığım modellerden bazılarını verdim
    Kabaca süreç şu: Opus’a senaryoyu modelletiyorum, matematiği göstermesini istiyorum, sonra düzeltip yineletiyorum ve en sonunda kodun model mantığıyla uyuşup uyuşmadığını tekrar kontrol ediyorum. Fable, bulduğum hataların neredeyse hepsini buldu ve ek değişkenler için ilginç öneriler de sundu
    Ama kullanım limitini adeta 90’ların sonundaki bir Hummer gibi yakıp bitirdi

    • Max 5x aboneliğim var ama Fable 40 dakikalık bir kod inceleme oturumunda haftalık limitin %16’sını harcadı
      İncelemeyi bile bitiremedi ve asıl Fable’a ihtiyaç duyduğum kritik bellek güvenliği kısmında sonunda yine Opus 4.8’e döndüm
      Yakında bu modelleri fiyat yüzünden kullanamayacakmışım gibi geliyor. 22 Haziran’a kadar Fable’dan olabildiğince yararlanmak gerekecek gibi
    • En önemli soru şu: Buradaki yatırım getirisi ne kadar?
  • Bugün Fable ile kişisel bir proje denedim; epey sağlam görünüyor ama 4.8’den çok da uzak değil
    Aynı halüsinasyonlar, aynı tür hata kalıpları, büyük projelerde sadece isteneni yapıp bunun dokunabileceği, bozabileceği ya da etkileyebileceği şeyleri görmezden gelme eğilimi yine var. Başta testleri çalıştırıyor ama bağlam büyüyünce “sonra çalıştırırım” diyor ve küfürlü biçimde zorlamazsanız gerçekten sonuna kadar da çalıştırmıyor
    Kullanmaya devam edeceğim ama şu an bana göre bu devrim değil, kademeli bir iyileşme; “OMG OMG OMG Mythos geldi!” seviyesi değil

    • Benim deneyimim tam tersi. Fable sanki her şeyi öngörüyor ve sormadan hepsini yapıyor gibiydi
      Oldukça etkileyiciydi ve onunla çalışmak keyifliydi
      Bu da çok garip sayılmaz; ilk abone olduğumda Opus da tam böyleydi. Anthropic’in kapasite sıkıntısı yüzünden Opus’u zayıflattığına dair meme çok yaygın ama doğru mu bilmiyorum. Yine de Fable’ın da aynı kaderi yaşayıp yaşamayacağını merak ediyorum
    • Benim projemde Fable, 4.8’in kaçırdığı şeyleri anında ve net biçimde gördü
      Ama bu sorunları basamak basamak aşarken beni epey etkiledikten çok kısa süre sonra, her zamanki gibi gerçekten bir şey yapmak yerine durmadan konuştuğu sonsuz bir döngüye girdi ve bazen tamamen durup benim yeniden dürtmemi bekledi
      Yani AGI değil. Ama belirgin bir ilerleme olduğu kesin
  • Yazıdaki şu kısa cümle ürkütücü: “Ancak bir yazılım mühendisi, benim hızla bulamadığım kalan potansiyel hataları ayıklayacaktır”
    Her yazılım geliştirici bunun son derece tehlikeli ve gerçek dışı bir varsayım olduğunu bilir

    • Bu, aslında tüm gerçek işi kolayca aradan çıkaran küçük bir cümle
  • Yazarın “AI’nin ürettiği en sofistike akademik sosyal bilim makalesi” dediği yazının ilk birkaç paragrafını okudum ama beklendiği kadar etkileyici değildi
    Şöyle şeyler yazıyordu: “Piyasa talebine ilişkin sonradan oluşan inançlar tamamen referans noktasına bağımlıdır. Toplanan fon miktarı sabit tutulduğunda, kurucu yalnızca kendi belirlediği hedefe göre performansı izler. Eşikte yarım standart sapmalık bir sıçrama olur, ardından ilk 10 puana keskin tepki verir ve sonra düzleşir.”
    İnsanlar veriyi normalde böyle söze dökmez. Özet belge de epey içi şişirilmiş gibi duruyor

  • Sorunun en eksiksiz biçimde ortaya çıktığı yer burası
    Yazar, tüm verilerin gerçek ve doğrulanmış olması gerektiğini belirten bir prompt yazdıktan sonra buna gerçekten inanmış. Veri odaklı bir projede bile böyle yapmış. İnsanlar sayısız başka işte, hatta önemli işlerde de aynısını yapacaktır

    • Keşke bunu hayatta daha erken öğrenseydim; kimse kontrol etmeyecekse çok daha fazla şeyi inandırıcı biçimde uydurmak mümkünmüş
  • “9 buçuk saat çalıştı” kısmı ile “Mükemmel değildi. Uzman olarak birkaç hata ve eksik buldum, AI'a düzelttirdim” bölümü dikkat çekiciydi
    Günde tek bir probleme bu kadar uzun süre harcanmasını beklemiyorum; ayrıca temel ödül döngüsü birkaç saat olan bir çıktıyı yeniden düzeltmek için de bu kadar zaman harcanmasını beklemiyorum
    Müşterilerim şu anda ajan yanıt süresini 85 saniyeden 20 saniyenin altına indirmemi istiyor
    Aynı anda sektörün ajanlar aracılığıyla bir saatten uzun iş akışlarına yöneldiğini görmek çok uyumsuz hissettiriyor

    • Claude'u savunmak gerekirse, ki savunacağıma inanamazdım, 19 sayfalık bir tasarım dokümanından Concord benzeri bir şeyi 9,5 mesai saati içinde çıkarabilecek tek bir geliştirici tanımıyorum
      Yine, eskisi gibi yöneticinin neden sadece oturuyorsun diye sorduğu günlere döneceğiz. Sadece “derleniyor” yerine “Claude'u bekliyorum” diyeceğiz
    • Bu noktada çok daha fazla para verseler ben yaparım
    • Benim Opus 4.8'im, önemsiz olmayan tek bir kodlama isteğinde bile düzenli olarak 10 dakikadan fazla çalışıyor
    • Çalışma süresi pek değerli bir ölçüt değil
      Genelde süreci doğrudan kodla tanımlayıp o kodun iş parçalarını modellere devretmesini sağlamak daha iyi. Tek gerçek sorun, sağlayıcının abonelik indirimlerinden yararlanmanın zorlaşması
      Öte yandan model yönlendirmesini doğrudan yapmak kolaylaşıyor. Genel amaçlı bir chatbotun günler ya da haftalar süren iş akışlarında tutarlılığı nasıl koruduğunu henüz görmedim
    • QWEN modelleri çıktığında zaten sigmoid bölgesine girdiğimizi düşündüm
      Projeyi düzgün yapılandırırsanız istediğiniz genişleme noktasını işaret edip yaklaşık 30 dakika çalıştırarak özellikleri genişletebilirsiniz. Tüm kod tabanı üzerinde etkili biçimde ‘tanrı modu’ yapamıyor ama dikkatli bir gözlemci ve kod uzmanı olarak 128GB VRAM'den fazlası şart değil
      En yeni modellerin sohbet dışı kullanımda bu kadar ileri gitmiş olması şaşırtıcı; Çin bu tür modeller için silikon üretmeye başladığında işi bitirecek gibi görünüyor
  • Şiir için verilen promptun ne olduğunu aşırı merak ediyorum
    Fikir tanıdık gelince biraz eşeleyip 14 yıl önceki bir reddit şiirini buldum: [https://www.reddit.com/r/RedditDayOf/comments/tjjw2/may_12_a...]
    Yazarın paylaştığı kadar uzun değil ama aynı fikir
    Bu, Polonyalı yazar Stanislaw Lem'in SF masal derlemesi “The Cyberiad”dan geliyor. Bir hikâyede robot yapımcısı Trurl şiir yazan bir makine yapıyor ve kıskanç rakibi Klapaucian bu makineden şunu istiyor: “Saç tıraşı hakkında bir şiir! Ama yüce, asil, trajik, ebedi; aşk ve ihanet, intikam, sessiz kahramanlık ve kaçınılmaz yıkım karşısında bir şiir! Altı dize, zekice kafiyeli ve bütün kelimeler s ile başlamalı!”
    Bilgisayar da şöyle cevap veriyor:
    “Seduced, shaggy Samson snored.
    She scissored short. Sorely shorn,
    Soon shackled slave, Samson sighed.
    Silently scheming,
    Sightlessly seeking
    Some savage, spectacular suicide”
    Yazarın Fable/Mythos'a meydan okuma verirken bu sahneye gönderme yapmış olması kaçınılmaz görünüyor. Tam promptu merak ediyorum

    • İlginç olan, bunun İngilizce çevirinin zorluğu olması
      İngilizce çeviri, Lehçe özgün metinden farklı başlangıç harfleri ve farklı sözcükler kullanıyor:
      Cyprian cyberotoman, cynik, ceniąc czule
      Czarnej córy cesarskiej cud ciemnego ciała,
      Ciągle cytrą czarował. Czerwieniała cała,
      Cicha, co-dzień czekała, cierpiała, czuwała...
      ... Cyprian ciotkę całuje, cisnąwszy czarnulę!!
      Çevirmenin işi LLM ile karşılaştırılabilir. İkisi de türev işler; kısıtlar içinde çalışırlar ama yaratıcılığa da alan bırakırlar
    • Yazar o sahneye gönderme yapmadıysa bile, Anthropic reddit yorumları için lisans aldığına göre bunu eğitim verilerinden çekmiş de olabilir
  • Henüz bir saat bile kullanmamış olması nedeniyle yeni teknoloji heyecanı içinde olduğu da hesaba katılmalı
    Benim projem (https://github.com/tsz-org/tsz) gibi bir durumda, modellerin yeterince araştırma yapmaması ve başka durumları hesaba katmaması beni sürekli hayal kırıklığına uğrattı. Model bir şeyi düzelten kod üretiyor, sonra da “ilgili görünmeyen” iki testi bozuyor; bunu tekrar tekrar yapıyor
    Fable'da işler çok daha uzun sürüyor gibi görünüyor ve henüz bir Fable oturumunda pull request görmedim; ama oturum kayıtlarını okuyunca taş üstünde taş bırakmamaya çalışan bir şekilde doğru şeyi yaptığını görebiliyorsunuz
    Yazıda da dendiği gibi bu tür bir modelin “hissi” projeden projeye o kadar farklı ki aktarması zor, ama yine de paylaşayım dedim

    • Bu, projenin özellikleri kademeli olarak eklemeye elverişli bir yapıda olmayabileceğine dair bir işaret değil mi?
  • Herkesin Mythos ile Opus arasında bu kadar büyük bir fark hissedecek kadar ne üzerinde çalıştığını merak ediyorum.
    Ben de epey ileri seviye işler yaptığımı düşünüyorum ama çoğu zaman yalnızca Deepseek bile yeterli oluyor. Buradaki herkes neden dahi gibi?

    • Ne üzerinde çalıştığına bağlı.
      Hades ya da Baazar ayarında iyi bir bağımsız oyun seviyesinde video oyunları yapmaya, organik, etkileşimli ve animasyon hissi veren UI öğeleri, görsel efektler, karmaşık shader'lar ve benzer şeyler üretmeye çalışırsan, hiçbir model bunu kolayca bitirecek kadar yeterli değil. En iyi %3'lük oyunlarda ortaya çıkan sorunların önemli bir kısmı, basit bir prompt ile herhangi bir model için gerçekten çok zor.
      Ben şahsen doğrudan kod yazmayı ve öğrenmeyi sevdiğim için çok umursamıyorum; DeepSeek Flash seviyesi bana yetiyor. Yine de en iyi modellerin bile hiç yaklaşamadığı benchmark'lar üretmek çok kolay ve modellerin bu tür sorunlarda ne kadar iyileştiğini test etmeyi seviyorum.
      Bu arada Fable 5, 4.8'den kesin olarak biraz daha iyi.
    • Yeni bir dizüstü bilgisayar duyurulunca çalışanların bir anda herkesin yükseltmeye ihtiyacı varmış gibi davranmasına benziyor.
      Gerçekte ise %90'ı Macbook Neo ile de rahatça idare edebilir.
    • Son zamanlarda Rust ile yaygın web altyapısı türünde bir proje geliştiriyorum.
      rustls, Tokio gibi Rust ekosisteminin güçlü yapı taşlarını bolca kullanarak bellek güvenli ya da ona yakın bir nginx alternatifi yapmaya çalışıyorum.
      Bunun bir parçası olarak Rust içinde çalışan yüksek kaliteli bir Lua in Rust deposu da geliştiriyorum. gpt 5.5 ve Opus 4.8'in takıldığı Lua yorumlayıcımdaki performans sorunlarını Mythos ile düzeltmeye çalışıyorum.
      Mythos'un bunu çözüp çözemeyeceğini bilmiyorum ama birkaç saattir çalışıyor ve oldukça umut verici sonuçlar var.
      Merak ediyorsan performans grafikleri burada: https://github.com/ianm199/lua-rs
    • Kendi programlama dilimi yapıyorum.
      Katkı sağlayabileceğim açık kaynak projelere de bakıyorum. Hobi geliştiriciden profesyonele geçişte yardımcı olabilecek bir şey arıyorum ama günümüzde bunun ne kadar mümkün olduğundan emin değilim.
      Fable 5, kod incelemesinde Opus 4.8'in kaçırdığı epey fazla sorunu buldu. Aptalca siber güvenlik kısıtlamaları yüzünden model budanmış olmasına rağmen böyleydi. Daha fazlasını söylemek zor çünkü Max 5x'te her 5 saatlik pencerede yalnızca bir oturum alabiliyorsun. Şimdiye kadar sadece iki oturum kullandım.
    • Beklenti seviyesini sürekli yükseltirsen, herhangi bir modeli sınırına kadar zorlamak zor değildir.
      Uç bir örnek olarak prompt'un “özellikleri tam ve cilalı bir Facebook klonu yap” olduğunu düşün. Facebook karmaşık ama teknik olarak aşırı zor olmayabilir. Yine de yeterince token harcadıktan sonra, farklı modellerin bu prompt'a verdiği sonuçlarda çeşitli açılardan kayda değer farklar görürsün.
      Elbette yukarıdaki istek pratikte çok faydalı değil. Ama sınıra yaklaşana kadar neden daha büyük parçaları emanet etmeyesin? Bir noktada sınıra ulaşırsın ve fark netleşir.