Mythos ile çalışmak böyle hissettiriyor
(oneusefulthing.org)- Genel kullanıma açılan ilk Mythos sınıfı model Claude 5 Fable, çok adımlı bir teknik şartnameyi alıp kendi başına en fazla onlarca saat çalışabiliyor ve daha önce kullandığım tüm modelleri belirgin bir farkla geride bırakıyor
- Tek bir prompt ve bir tur geri bildirimle son derece rafine sosyal bilim makalelerinden, tüm kelimeleri s ile başlayan 10 sayfalık uyaklı şiirlere kadar içerik üretiyor
- Çalışırken başka yapay zekaları (çoğunlukla ucuz Claude Sonnet) doğrudan çalıştırıp araştırma, kodlama ve doğrulamayı paylaştırıyor; 2.200’den fazla uçuş ve tren tarifesi ile ülke bazında yol hız verileri topluyor
- Kullanıcının rolü talimat verme ve sonucu değerlendirmeye indirgeniyor; modelin karar alma süreci görünmediği için nihai bir kara kutu gibi çalışıyor
- Yapay zekayla ilişki, işi doğrudan yapan bir 'büyücü'den sonuç sipariş edip değerlendiren bir 'patron'a dönüşüyor; yetenek arttıkça insan müdahalesine daha az alan kalabileceği düşünülüyor
Claude 5 Fable’ın performansı ve kullanım hissi - Ethan Mollick
- Kamuya açılan ilk Mythos sınıfı yapay zeka modeli Claude 5 Fable’ı erken erişimle deneme fırsatı buldum
- Claude 5 Fable, yayımlanan ilk Mythos sınıfı yapay zeka modeli; yazılım güvenliği etkileri çok konuşulsa da testler bu alan dışında yapıldı
- Fable’ın guardrail’leri, siber güvenlik amacıyla kullanılmasını neredeyse tamamen engelleyecek düzeyde çalışıyor
- Birçok deneyde Fable, daha önce kullandığım neredeyse tüm açık modellere kıyasla belirgin biçimde daha yüksek performans gösterdi
- Fable, çeşitli problemlerde yetkinlik sergiledi ve çok sayfalı spesifikasyonlara dayanarak yaklaşık 12 saate kadar çalışma yürütebildi
Fable’ın performansı ve çıktıları
- Yapılan tüm deneylerde yayımlanmış diğer modelleri açık farkla geçti; tüm görevler genelinde kapsamlı bir performans artışı görüldü
- Tek bir prompt ve tek seferlik geri bildirimle, şimdiye kadar bir yapay zekanın ürettiği en rafine akademik sosyal bilim makalesini oluşturdu
- Ayrıca tüm kelimeleri s harfiyle başlayan, berberlik temalı 10 sayfalık bir uyaklı şiir de üretti
- Claude Code içinde belirsiz bir ilk prompt ve "make it better" gibi hafif ek geri bildirimlerle oynanabilir oyunlar üretti
- Yazı tura oyunu “Balatro, but for the game of coin flips” prompt’uyla başladı
- Öz farkındalığı olan yılan oyunu, yılanın öz farkındalık kazanıp tuhaf şeylerin yaşandığı bir yapıya sahip
- Derinlere inilen oyun, aşağı doğru ilerleyip orada ne olduğunu görmeye dayanıyor
- Claude görüntü üretemediği için tüm görsel sanat ve 3D nesneleri harici asset kullanmadan yalnızca matematiksel işlemlerle gerçekleştirdi
- İş daha ciddi görevlere kaydıkça araçla çalışma deneyimi keyif ile kaygı arasında bir yerde duruyor; çünkü ne istenirse o gerçekleşiyor
Maps and Methods — izokron harita üretimi örneği
- İzokron harita (isochrone map), belirli bir süre içinde gidilebilecek mesafeyi gösteren haritadır; ilk örnek 1881’de Londra çıkışlı seyahat sürelerini göstermek için yapılmıştı
- Önceki modeller bu tür haritaları yarı yarıya bile kullanışlı üretemiyordu; çünkü binlerce olası seyahat mesafesinin araştırılması ve çok sayıda küçük karar gerekiyordu
-
Çalışmanın yürütülme biçimi
- Şehir seçimiyle birlikte havaalanı, tren, yürüme ve araba kullanımını yansıtan gerçek verilere dayalı, özgün tasarımlı bir harita isteyen bir prompt verildi; verilerin gerçek zamanlı olması gerekmediği, araştırmaya dayalı gerçek veri olması gerektiği belirtildi
- Model önce 1881’deki orijinal stil üzerinden üretmeyi önerdi; onay verilince işe başladı
- Saatler süren build oturumlarında çok sayıda başka yapay zekayı (çoğunlukla ucuz Claude Sonnet) çalıştırarak seyahat süresi araştırması yaptı
- TGV’den Shinkansen’e uzanan tren tarifeleri, çeşitli akademik makalelere dayanan ülke bazlı yol hızları ve 2.200’den fazla somut uçuş verisi toplandı
- Araştırma ajanları çalışırken kodlamaya başladı; kod doğrulaması için ek ajanlar ve testler çalıştırdı, ilerleme kaydı tuttu
-
Uzak bölge düzeltmeleri ve token kullanımı
- Greenland gibi uzak bölgelerde kesin sayılar yerine tahminler bulunduğu için gerçek seyahat sürelerini elde edecek şekilde düzeltmesi istendi
- Bu kez araştırma yapıp birbirlerinin sonuçlarını doğrulayan adversarial agent group iş akışı çalıştırıldı
- Pasifik’teki Pitcairn Island’a gemi seferlerinin sıklığını, Ottawa’dan Grise Fjord’a gidiş rotasını çıkardı
- Kısa sürede çok büyük miktarda token tüketti
- Kullanıcının yaptığı şey yalnızca iddialı talimatlar ve biraz geri bildirim vermekti; model yüzlerce küçük kararı kendisi aldı ve bu seçimleri anlama ya da müdahale etme fırsatı olmadı
- Sadece iş yükü değil, modelin yöntemini, yaklaşım tercihini ve sonucun derinliğini kontrol etme gücü de sınırlı kaldı
- Ortaya çıkan çıktı, tıklanabilir bir izokron harita olarak sunuluyor; yöntemi ve kaynakları grafiğin altında görmek mümkün
Mythos sınıfı bir modelle çalışmak — Concord örneği
- En iddialı proje, insanların ürettiği dağınık yanıtları uygun biçimde sınıflandıran bir araştırma görevi: bir fikrin ne kadar yenilikçi olduğu ya da insanların neden belirli kitapları sevdiği gibi şeyleri değerlendirmek
- Daha önce insan araştırmacılar karar veriyor, sonra verinin güvenilirliğini görmek için diğer yanıtlar ve istatistiklerle karşılaştırma yapıyordu
- Yapay zeka ve insan değerlendirmesini kalibre etmek zorlu ve pahalı
- Fable’dan bu sorunu çözmesi istendi; önce 19 sayfalık karmaşık bir tasarım belgesi üretti, ardından uygulamaya geçti
- Fable bunun üzerinde 9 saat 30 dakika çalıştı
- Sonuç, yapay zekanın Concord adını verdiği bir yazılım oldu; birden çok veri kümesini alıp insan ve yapay zeka yanıtlarını kalibre ediyor, karmaşık veri analizi yapıyor
- Kusursuz değildi; uzman gözüyle bazı hatalar ve eksikler bulundu, bunların bir kısmı istenen tasarımdan kaynaklanıyordu ve düzeltilmesi istendi
- Sunulan kapsam, daha önce gördüğüm her şeyi aşıyordu; araştırmacıların yıllardır ihtiyaç duyduğu ama kârlı olmadığı için geliştirilmeyen türden bir yazılımdı
- Kalan olası bug’lar yazılım mühendisleri tarafından çözülebilir; ayrıca yeni yazılım kullanımındaki patlamaya yanıt vermek için daha fazla kodere ihtiyaç duyulabilir
- Concord kodu GitHub deposunda kullanılabilir ya da değiştirilebilir
Sınırlar ve kısıtlar
- Fable’ın gücü, yabancılık hissi ve sınırlamalarla birlikte geliyor
-
Token maliyeti
- Fable, Opus’a kıyasla 2 kat daha pahalı ve prodüksiyon maliyetinde token’ları "oldukça fazla" hızla tüketiyor
- Yine de daha ucuz modellere akıllıca delege etmesi, gerçek maliyeti ciddi biçimde düşürebilir
-
Guardrail’ler ve stil
- Güvenlik sorununa dair en ufak bir işarette bile guardrail devreye girip daha düşük performanslı Claude 4.8 Opus’a geçiyor; bu da gereğinden sık oluyor
- Mythos tartışmaları daha çok yazılım güvenliği etkilerine odaklansa da Fable’ın guardrail’leri, onu siber güvenlik amaçlı kullanım için fiilen kapatıyor
- Hâlâ pürüzlü sınır (jagged frontier) mevcut ve çıktılar ile ilerleme raporlarında kendine özgü "Claudism" tarzı hissediliyor
Büyücüden patrona — insan rolünün değişimi
- Geçen yıl bu deneyimi, 'bir büyü söylersin ve bir şey olur' türünden bir büyücü (wizard) benzetmesiyle anlatmıştım
- Fable’da büyü yeterince güçlenmiş durumda; bu yüzden kullanıcı artık büyücüden çok bir patrona benziyor
- Ne istediğini tarif ediyor, ücretini ödüyor ve sonucu değerlendiriyor — asıl iş ise görünmeyen bir yerde yüzlerce küçük seçimle gerçekleşiyor
- İş süreçten sonuca kayıyor; artık yönlendirmiyor (steer), sipariş veriyorsun (commission)
-
İki olasılık
- Bu, arayüzlerin henüz yetişemediği geçici bir durum olabilir; model davranışını görmeyi ve süreç içinde yön vermeyi sağlayan daha iyi yöntemler gelebilir
- Ya da tam tersine, model ne kadar yetkin olursa insanın anlamlı biçimde yapabileceği şey o kadar azalıyor olabilir; kara kutu olmak da bu yeteneğin bedeli olabilir
- Bu, açık anlamda bir kontrol kaybı değil; hâlâ yönlendirilebiliyor ve talimatları çok iyi izliyor — talimat ne kadar iddialıysa sonuç o kadar iyi oluyor
- Ancak yönlendirme artık doğrudan işi yapmakla aynı şey değil; model kendi ajanlarını çalıştırıp araştırma, yazım ve karşılıklı doğrulamayı tamamladıktan sonra bitmiş ürünü geri veriyor
- Patronun tek bir sanatçıya iş vermesi gibi değil; Fable, işe sahada hiç girmeden yalnızca nihai sonucu onayladığın bütün bir stüdyoya daha yakın bir yapı sunuyor
1 yorum
Hacker News görüşleri
Bu yazıda üretilen kodun kalitesi ve ortamla ilgili somut içeriğin neredeyse hiç olmaması ilginç
Kodda dokümantasyon ve test var mı, anlaşılabilir ve genişletilebilir mi, güvenli mi, hangi dil, framework ve veritabanı kullanıldı merak ediyorum. Yazar muhakeme ve zevkten söz etmiş ama gerçek kodun da özenli yazılıp yazılmadığını bilmiyorum. Yeni bir özellik eklemesini istersen model tüm mimariyi yeniden kurup yine 9,5 saatlik token harcar mı, bu da soru işareti. Araştırma kısmı ise alan bilgisi gerektiriyor; yani seyahat türlerine göre zamanı nasıl dönüştürüp anlaşılır hale getirdiği önemli. Yazarın bunu nasıl doğruladığını da merak ediyorum
Bu sorular yalnızca yapay zekaya özgü değil. Bir insan ajansa para verip “çalışıyor” denilen bir çıktı alsaydım aynı şeyleri sorardım. Değerlendirmeyi bilmiyorsam, değerlendirecek birini işe alırdım. LLM’lerde en çok takıldığım nokta doğrulama
Bu yazar da Wharton School of Management profesörü gibi görünüyor. Bu kişiler gerçek bir ürünü piyasaya sürmek veya bakımını yapmak zorunda değil; daha çok yan proje yapıyorlar
Düzgün bir yazılım mühendisliği bakış açısını neredeyse yalnızca Mitchell Hashimoto’da gördüm
Yukarıdaki soruların çoğu daha yüksek risk varsayımına dayanıyor. Yazılımın uzun süre yaşayacağı, gereksinimlerin evrileceği ve hataların tolere edilemeyeceği varsayımı gibi
Yazılımda LLM’leri iyi kullanmanın yolu, sanki tüm projeleri düşük riskli hale getirmeyi öğrenmek gibi görünüyor
Somut içerik istediğinizde hemen “insanlar da bunu iyi yapamıyor ki!” deniyor. Nicel kanıt çok az, saf retorik ise çok fazla
Yazılımın gözlemlenebilir davranışı iyiyse, o yazılım iyidir. Model vibe coding ile yazılmış bir kod tabanındaki herhangi bir hatayı düzeltebiliyorsa, o düzeltilebilir bir hatadır. Sömürülebilir bir açık yoksa güvenli koddur, performans yeterliyse performansı da iyidir
Dışarıdan yapması gerekeni yapıyor ve içeride sorun bulunduğunda model bunu düzeltebiliyorsa, kodun şekli önemli değildir. Yazılım mühendisliği her zamankinden daha fazla, kodun niyet edildiği gibi çalıştığını doğrulama işine dönüştü
Kaldı ki kodun görünüşü önemli olsa bile, onu da modele düzelttirebilirsiniz
Neyi kaçırdım bilmiyorum. “Öz farkındalık” dedikleri şey ekranın altındaki birkaç komik mesaj mı? “Tuhaf şeyler”in ne olduğu da belirsiz
Fable’a benim normalde elle doğruladığım modellerden bazılarını verdim
Kabaca süreç şu: Opus’a senaryoyu modelletiyorum, matematiği göstermesini istiyorum, sonra düzeltip yineletiyorum ve en sonunda kodun model mantığıyla uyuşup uyuşmadığını tekrar kontrol ediyorum. Fable, bulduğum hataların neredeyse hepsini buldu ve ek değişkenler için ilginç öneriler de sundu
Ama kullanım limitini adeta 90’ların sonundaki bir Hummer gibi yakıp bitirdi
İncelemeyi bile bitiremedi ve asıl Fable’a ihtiyaç duyduğum kritik bellek güvenliği kısmında sonunda yine Opus 4.8’e döndüm
Yakında bu modelleri fiyat yüzünden kullanamayacakmışım gibi geliyor. 22 Haziran’a kadar Fable’dan olabildiğince yararlanmak gerekecek gibi
Bugün Fable ile kişisel bir proje denedim; epey sağlam görünüyor ama 4.8’den çok da uzak değil
Aynı halüsinasyonlar, aynı tür hata kalıpları, büyük projelerde sadece isteneni yapıp bunun dokunabileceği, bozabileceği ya da etkileyebileceği şeyleri görmezden gelme eğilimi yine var. Başta testleri çalıştırıyor ama bağlam büyüyünce “sonra çalıştırırım” diyor ve küfürlü biçimde zorlamazsanız gerçekten sonuna kadar da çalıştırmıyor
Kullanmaya devam edeceğim ama şu an bana göre bu devrim değil, kademeli bir iyileşme; “OMG OMG OMG Mythos geldi!” seviyesi değil
Oldukça etkileyiciydi ve onunla çalışmak keyifliydi
Bu da çok garip sayılmaz; ilk abone olduğumda Opus da tam böyleydi. Anthropic’in kapasite sıkıntısı yüzünden Opus’u zayıflattığına dair meme çok yaygın ama doğru mu bilmiyorum. Yine de Fable’ın da aynı kaderi yaşayıp yaşamayacağını merak ediyorum
Ama bu sorunları basamak basamak aşarken beni epey etkiledikten çok kısa süre sonra, her zamanki gibi gerçekten bir şey yapmak yerine durmadan konuştuğu sonsuz bir döngüye girdi ve bazen tamamen durup benim yeniden dürtmemi bekledi
Yani AGI değil. Ama belirgin bir ilerleme olduğu kesin
Yazıdaki şu kısa cümle ürkütücü: “Ancak bir yazılım mühendisi, benim hızla bulamadığım kalan potansiyel hataları ayıklayacaktır”
Her yazılım geliştirici bunun son derece tehlikeli ve gerçek dışı bir varsayım olduğunu bilir
Yazarın “AI’nin ürettiği en sofistike akademik sosyal bilim makalesi” dediği yazının ilk birkaç paragrafını okudum ama beklendiği kadar etkileyici değildi
Şöyle şeyler yazıyordu: “Piyasa talebine ilişkin sonradan oluşan inançlar tamamen referans noktasına bağımlıdır. Toplanan fon miktarı sabit tutulduğunda, kurucu yalnızca kendi belirlediği hedefe göre performansı izler. Eşikte yarım standart sapmalık bir sıçrama olur, ardından ilk 10 puana keskin tepki verir ve sonra düzleşir.”
İnsanlar veriyi normalde böyle söze dökmez. Özet belge de epey içi şişirilmiş gibi duruyor
Sorunun en eksiksiz biçimde ortaya çıktığı yer burası
Yazar, tüm verilerin gerçek ve doğrulanmış olması gerektiğini belirten bir prompt yazdıktan sonra buna gerçekten inanmış. Veri odaklı bir projede bile böyle yapmış. İnsanlar sayısız başka işte, hatta önemli işlerde de aynısını yapacaktır
“9 buçuk saat çalıştı” kısmı ile “Mükemmel değildi. Uzman olarak birkaç hata ve eksik buldum, AI'a düzelttirdim” bölümü dikkat çekiciydi
Günde tek bir probleme bu kadar uzun süre harcanmasını beklemiyorum; ayrıca temel ödül döngüsü birkaç saat olan bir çıktıyı yeniden düzeltmek için de bu kadar zaman harcanmasını beklemiyorum
Müşterilerim şu anda ajan yanıt süresini 85 saniyeden 20 saniyenin altına indirmemi istiyor
Aynı anda sektörün ajanlar aracılığıyla bir saatten uzun iş akışlarına yöneldiğini görmek çok uyumsuz hissettiriyor
Yine, eskisi gibi yöneticinin neden sadece oturuyorsun diye sorduğu günlere döneceğiz. Sadece “derleniyor” yerine “Claude'u bekliyorum” diyeceğiz
Genelde süreci doğrudan kodla tanımlayıp o kodun iş parçalarını modellere devretmesini sağlamak daha iyi. Tek gerçek sorun, sağlayıcının abonelik indirimlerinden yararlanmanın zorlaşması
Öte yandan model yönlendirmesini doğrudan yapmak kolaylaşıyor. Genel amaçlı bir chatbotun günler ya da haftalar süren iş akışlarında tutarlılığı nasıl koruduğunu henüz görmedim
Projeyi düzgün yapılandırırsanız istediğiniz genişleme noktasını işaret edip yaklaşık 30 dakika çalıştırarak özellikleri genişletebilirsiniz. Tüm kod tabanı üzerinde etkili biçimde ‘tanrı modu’ yapamıyor ama dikkatli bir gözlemci ve kod uzmanı olarak 128GB VRAM'den fazlası şart değil
En yeni modellerin sohbet dışı kullanımda bu kadar ileri gitmiş olması şaşırtıcı; Çin bu tür modeller için silikon üretmeye başladığında işi bitirecek gibi görünüyor
Şiir için verilen promptun ne olduğunu aşırı merak ediyorum
Fikir tanıdık gelince biraz eşeleyip 14 yıl önceki bir reddit şiirini buldum: [https://www.reddit.com/r/RedditDayOf/comments/tjjw2/may_12_a...]
Yazarın paylaştığı kadar uzun değil ama aynı fikir
Bu, Polonyalı yazar Stanislaw Lem'in SF masal derlemesi “The Cyberiad”dan geliyor. Bir hikâyede robot yapımcısı Trurl şiir yazan bir makine yapıyor ve kıskanç rakibi Klapaucian bu makineden şunu istiyor: “Saç tıraşı hakkında bir şiir! Ama yüce, asil, trajik, ebedi; aşk ve ihanet, intikam, sessiz kahramanlık ve kaçınılmaz yıkım karşısında bir şiir! Altı dize, zekice kafiyeli ve bütün kelimeler s ile başlamalı!”
Bilgisayar da şöyle cevap veriyor:
“Seduced, shaggy Samson snored.
She scissored short. Sorely shorn,
Soon shackled slave, Samson sighed.
Silently scheming,
Sightlessly seeking
Some savage, spectacular suicide”
Yazarın Fable/Mythos'a meydan okuma verirken bu sahneye gönderme yapmış olması kaçınılmaz görünüyor. Tam promptu merak ediyorum
İngilizce çeviri, Lehçe özgün metinden farklı başlangıç harfleri ve farklı sözcükler kullanıyor:
Cyprian cyberotoman, cynik, ceniąc czule
Czarnej córy cesarskiej cud ciemnego ciała,
Ciągle cytrą czarował. Czerwieniała cała,
Cicha, co-dzień czekała, cierpiała, czuwała...
... Cyprian ciotkę całuje, cisnąwszy czarnulę!!
Çevirmenin işi LLM ile karşılaştırılabilir. İkisi de türev işler; kısıtlar içinde çalışırlar ama yaratıcılığa da alan bırakırlar
Henüz bir saat bile kullanmamış olması nedeniyle yeni teknoloji heyecanı içinde olduğu da hesaba katılmalı
Benim projem (https://github.com/tsz-org/tsz) gibi bir durumda, modellerin yeterince araştırma yapmaması ve başka durumları hesaba katmaması beni sürekli hayal kırıklığına uğrattı. Model bir şeyi düzelten kod üretiyor, sonra da “ilgili görünmeyen” iki testi bozuyor; bunu tekrar tekrar yapıyor
Fable'da işler çok daha uzun sürüyor gibi görünüyor ve henüz bir Fable oturumunda pull request görmedim; ama oturum kayıtlarını okuyunca taş üstünde taş bırakmamaya çalışan bir şekilde doğru şeyi yaptığını görebiliyorsunuz
Yazıda da dendiği gibi bu tür bir modelin “hissi” projeden projeye o kadar farklı ki aktarması zor, ama yine de paylaşayım dedim
Herkesin Mythos ile Opus arasında bu kadar büyük bir fark hissedecek kadar ne üzerinde çalıştığını merak ediyorum.
Ben de epey ileri seviye işler yaptığımı düşünüyorum ama çoğu zaman yalnızca Deepseek bile yeterli oluyor. Buradaki herkes neden dahi gibi?
Hades ya da Baazar ayarında iyi bir bağımsız oyun seviyesinde video oyunları yapmaya, organik, etkileşimli ve animasyon hissi veren UI öğeleri, görsel efektler, karmaşık shader'lar ve benzer şeyler üretmeye çalışırsan, hiçbir model bunu kolayca bitirecek kadar yeterli değil. En iyi %3'lük oyunlarda ortaya çıkan sorunların önemli bir kısmı, basit bir prompt ile herhangi bir model için gerçekten çok zor.
Ben şahsen doğrudan kod yazmayı ve öğrenmeyi sevdiğim için çok umursamıyorum; DeepSeek Flash seviyesi bana yetiyor. Yine de en iyi modellerin bile hiç yaklaşamadığı benchmark'lar üretmek çok kolay ve modellerin bu tür sorunlarda ne kadar iyileştiğini test etmeyi seviyorum.
Bu arada Fable 5, 4.8'den kesin olarak biraz daha iyi.
Gerçekte ise %90'ı Macbook Neo ile de rahatça idare edebilir.
rustls, Tokio gibi Rust ekosisteminin güçlü yapı taşlarını bolca kullanarak bellek güvenli ya da ona yakın bir nginx alternatifi yapmaya çalışıyorum.
Bunun bir parçası olarak Rust içinde çalışan yüksek kaliteli bir Lua in Rust deposu da geliştiriyorum. gpt 5.5 ve Opus 4.8'in takıldığı Lua yorumlayıcımdaki performans sorunlarını Mythos ile düzeltmeye çalışıyorum.
Mythos'un bunu çözüp çözemeyeceğini bilmiyorum ama birkaç saattir çalışıyor ve oldukça umut verici sonuçlar var.
Merak ediyorsan performans grafikleri burada: https://github.com/ianm199/lua-rs
Katkı sağlayabileceğim açık kaynak projelere de bakıyorum. Hobi geliştiriciden profesyonele geçişte yardımcı olabilecek bir şey arıyorum ama günümüzde bunun ne kadar mümkün olduğundan emin değilim.
Fable 5, kod incelemesinde Opus 4.8'in kaçırdığı epey fazla sorunu buldu. Aptalca siber güvenlik kısıtlamaları yüzünden model budanmış olmasına rağmen böyleydi. Daha fazlasını söylemek zor çünkü Max 5x'te her 5 saatlik pencerede yalnızca bir oturum alabiliyorsun. Şimdiye kadar sadece iki oturum kullandım.
Uç bir örnek olarak prompt'un “özellikleri tam ve cilalı bir Facebook klonu yap” olduğunu düşün. Facebook karmaşık ama teknik olarak aşırı zor olmayabilir. Yine de yeterince token harcadıktan sonra, farklı modellerin bu prompt'a verdiği sonuçlarda çeşitli açılardan kayda değer farklar görürsün.
Elbette yukarıdaki istek pratikte çok faydalı değil. Ama sınıra yaklaşana kadar neden daha büyük parçaları emanet etmeyesin? Bir noktada sınıra ulaşırsın ve fark netleşir.