GLM 5.2 ve Opus
(techstackups.com)- Aynı tek seferlik prompt ile ham WebGL tabanlı 3D platform oyunu üretmeleri istendiğinde, Opus daha hızlı ve daha yüksek tamamlanmışlık düzeyinde sonuç verdi; GLM-5.2 ise düşük maliyet ve açık ağırlık avantajı sundu
- GLM-5.2, Z.ai’nin MIT lisanslı açık ağırlık modeli; 1M token bağlamı ve High/Max düşünme düzeyleri sunuyor, ancak yalnızca metin tabanlı olduğu için görsel temelli öz-doğrulamada sınırlı kalıyor
- Gerçek test maliyeti GLM-5.2 için $5.39, Opus için yaklaşık $21.92 oldu; derleme süresi ise sırasıyla 1 saat 10 dakika 40 saniye ve 33 dakika 30 saniyeydi, yani hız ve maliyet arasında bir tercih ortaya çıkıyor
- GLM-5.2 çıktısında eksik dokular, çalışmayan dikenler, zafer koşulunun olmaması ve kalan debug overlay gibi temel sorunlar vardı; Opus daha temizdi ama havadaki ince platform kenarı çarpışması ve uzaktan tetiklenen zafer koşulu gibi sorunlar yine de kaldı
- Benchmark’larda ve dış değerlendirmelerde GLM-5.2 güçlü bir açık ağırlık modeli olarak görülüyor, ancak birçok kodlama ve ajan görevinde Opus önde; seçimde maliyet, açıklık ve görsel değerlendirme belirleyici oluyor
Aynı görevde ortaya çıkan fark
- GLM-5.2, açık modellerin potansiyelini gösteren yeni bir örnek olsa da, aynı gerçek görevde Claude Opus 4.8 daha hızlı ve daha doğru sonuç üretti
- Testte iki modele de aynı tek seferlik prompt verildi ve oyun motoru ya da Three.js gibi 3D render kütüphaneleri olmadan, tarayıcı için 3D platform oyununu ham WebGL ile sıfırdan oluşturmaları istendi
- Her iki çıktı ve kaynak kod da açık durumda
- Her iki oyun da ücretsiz CC0 varlık paketi Kenney Platformer Kit'i kullanıyor
GLM-5.2’nin yapısı ve yaklaşımı
- GLM-5.2, Z.ai’nin en yeni amiral gemisi modeli ve MIT lisanslı açık ağırlık olarak sunuluyor
- İndirip doğrudan çalıştırmak veya Z.ai API üzerinden çağırmak mümkün
- Ağırlıklar Hugging Face ve ModelScope üzerinde yayımlanmış durumda ve bölgesel kısıtlama yok
- vLLM, SGLang, Transformers gibi framework’lerle yerelde servis edilebiliyor
- Model, uzun süreli çok adımlı kodlama ajanı işleri gibi long-horizon görevleri hedefliyor
- 1M token bağlam penceresi sunuyor
- High ve Max düşünme düzeyleri var; testte High kullanıldı
- Belirleyici sınırlama ise yalnızca metin tabanlı olması
- GLM-5.2 görüntü okuyamıyor
- Ekran görüntüsü ya da diyagramların doğrudan incelenmesini gerektiren akışlarda Claude Opus gibi multimodal bir model gerekiyor
Fiyatlandırma ve çalışma maliyeti
- Üretici dokümanlarına göre 1M token başına fiyat GLM-5.2’de Opus’tan daha düşük
- Claude Opus 4.8: giriş $5, cache okuma $0.50, çıkış $25
- GLM-5.2: giriş $1.4, cache okuma $0.26, çıkış $4.4
- Çıkış tokenı bazında GLM-5.2’nin fiyatı Opus’un beşte birinden daha az
- Gerçek oyun üretim testinde ise zaman ve maliyet farklı yönlere ayrıldı
| Metrik | GLM-5.2 (Pi/OpenRouter) | Opus (Claude Code) |
|---|---|---|
| Duvar saati bazlı derleme süresi | 1 saat 10 dakika 40 saniye | 33 dakika 30 saniye |
| Çıkış tokenı | 131,000 | 216,809 |
| En yüksek bağlam kullanımı | 1M’in %16’sı | 1M’in %19’u |
| Araç çağrısı | 128 | 153 |
| Maliyet | $5.39 gerçek fatura | yaklaşık $21.92 tahmin |
- Opus işi yaklaşık yarı sürede bitirdi, GLM-5.2 ise çok daha düşük maliyetle tamamladı
Test görevi: ham WebGL 3D platform oyunu
- Görev, basit bir landing page üretmekten daha karmaşıktı
- GLB model ayrıştırıcısı
- matris ve vektör matematiği
- GLSL shader’ları
- skinning destekli iskelet animasyonu
- sabit zaman adımlı döngü
- çarpışma işleme
- takip kamerası
- İki model de aynı prompt’u, aynı varlıkları ve ipucusuz tek bir denemeyi aldı
- Tamamlama koşulları şunlardı
- ham WebGL tabanlı 3D motor ve render sistemi
- sağlanan 3D karakter ve dünya modelleri için loader
- yerçekimi ve çarpışma içeren karakter hareketi ve zıplama
- takip kamerası ve klavye kontrolü
- tek komutla tarayıcıda çalıştırılabilen tam oyun
- Her iki model de GLB ikili ayrıştırıcısı, matris/quaternion matematiği, WebGL2 render’ı, GLSL skinning shader’ı ve alt adımlı AABB çarpışmasını önemli ölçüde doğrudan uyguladı
- Derleme kayıtları da açık durumda
Oynanış sonuçları ve kalan hatalar
- Her iki oyun da üçüncü şahıs bakış açısına sahip 3D platform oyunu formuna ulaştı
- WASD veya yön tuşlarıyla hareket
- Space ile zıplama
- Shift ile koşma
- fare sürükleme ile kamera döndürme
- tekerlek ile yakınlaştırma/uzaklaştırma
- para toplama, dikenlerden kaçınma ve bayrağa ulaşma hedefi
- haritanın dışına düşüldüğünde başlangıç noktasına dönme
-
GLM-5.2 sonucu
- GLM-5.2’nin oyunu genel olarak kaba bir tamamlanmışlık sergiledi
- Karakterin bazı materyalleri eksikti ve karakter yürürken hareket yönünün tersine dönüyordu
- Diken tuzakları karakteri öldürmüyor ya da sıfırlamıyordu; bayrağa ulaşıldığında da zafer koşulu tetiklenmiyordu
- Kamera hareket ettiğinde kafa kayboluyor, ayrıca debug overlay ekranda kalıyordu
- Yayımsı yüzeye basınca karakterin bir sonraki platforma sıçraması ise iyi çalışıyordu
- Kenney modelleri ayrı bir dosyadaki ortak renk paletine referans veriyor, ancak GLM-5.2’nin render sistemi bu dosyayı yüklemediği için düz renkler kullanıldı
-
Opus sonucu
- Opus’un oyunu daha temizdi ve daha iyi çalışıyordu
- Kamera ve kontrol sistemi işliyordu, dikenlerin oyuncuyu öldürme mantığı da çalışıyordu
- Dokular doğru uygulanmıştı, animasyonlar akıcıydı ve bayrağa ulaşınca kazanmak mümkündü
- Kalan hatalar temel işlevlerden çok kenar durumlarına yakındı
- Karakter platformun yanındaki havada kısa süre durabiliyordu; bunun nedeni, kenardan ayrıldıktan hemen sonra da zıplamaya izin veren coyote-time toleransının fazla yüksek ayarlanmış olmasıydı
- Bayraktan hâlâ oldukça uzakken bile zafer koşulu tetiklenebiliyordu
Öz-doğrulamada fark yaratan multimodal ayrım
- Her iki modele de işi bitirmeden önce sonucu doğrulama talimatı verildi
- Opus multimodal bir model olduğu için oyunu render ettikten sonra alınan ekran görüntülerini doğrudan inceledi
- Ekranda kalan debug işaretlerini görüp kaldırdıktan sonra işi tamamladı
- Son sahnede bloklar, merdivenler, paralar, mücevherler, dikenler, bayrak, karakter, skor HUD’u, ışıklandırma ve geometriyi kontrol etti
- GLM-5.2 görüntü okuyamadığı için ekran görüntülerini doğrudan göremedi
- Bunun yerine ham piksel verisini okuyup renklerin beklenen değerlere kabaca uyup uymadığını kontrol eden dolaylı bir yöntem kullandı
- Kaydedilmiş görüntüde grass green, dirt brown, coin gold, flag red, character bluish, half-Lambert lit, no black gibi renk koşullarını kontrol etti
- Bu yöntem gerçek ekrandaki sorunları kaçırdı
- Karakter gri görünüyordu ve dokular eksikti
- Debug overlay hâlâ ekranın üzerinde duruyordu
- Görsel çıktının önemli olduğu işlerde, görüntüyü anlayabilen multimodal doğrulama gerçek kalite farkına dönüşüyor
Benchmark’larda görülen konum
- Z.ai’nin model kartı benchmark’larında GLM-5.2, en üst kapalı modellerin hemen arkasında yer aldığı birçok ölçümde göründü; bazı akıl yürütme benchmark’larında ise öne geçti
- Başlıca sayılar şöyle
- HLE: GLM-5.2 40.5, Opus 4.8 49.8
- HLE with tools: GLM-5.2 54.7, Opus 4.8 57.9
- AIME 2026: GLM-5.2 99.2, Opus 4.8 95.7
- IMOAnswerBench: GLM-5.2 91.0, Opus 4.8 83.5
- SWE-bench Pro: GLM-5.2 62.1, Opus 4.8 69.2
- NL2Repo: GLM-5.2 48.9, Opus 4.8 69.7
- ProgramBench: GLM-5.2 63.7, Opus 4.8 71.9
- SWE-Marathon: GLM-5.2 13.0, Opus 4.8 26.0
- MCP-Atlas public: GLM-5.2 76.8, Opus 4.8 77.8
- Tool-Decathlon: GLM-5.2 48.2, Opus 4.8 59.9
- ArtificialAnalysis’in bağımsız çalıştırma sonuçları da GLM-5.2’yi güçlü bir açık ağırlık modeli olarak değerlendiriyor
- Intelligence Index v4.1 puanı 51
- MiniMax-M3 44, DeepSeek V4 Pro 44, Kimi K2.6 43’ten daha yüksek
- TerminalBench v2.1 skoru %78; bu, model kartındaki 81 veya 82.7’den farklı bir harness kullanıyor
- Görev başına çıkış tokenı yaklaşık 43k ve bu, GLM-5.1’in 26k seviyesinden daha yüksek
- Benchmark eğilimi gerçek testle benzer
- GLM-5.2, açık ağırlık modeller arasında ön sıralarda ve akıl yürütmede bazı alanlarda rekabetçi
- Opus, birçok kodlama ve ajan benchmark’ında önde
Dış tepkiler
- Simon Willison, GLM-5.2’yi “muhtemelen en güçlü yalnızca metin tabanlı açık ağırlık LLM” olarak değerlendirdi
- Onun SVG testinde GLM-5.2, bisiklete binen bir pelikanı tamamen animasyonlu biçimde üretti ve kırık bir kısmı yoktu
- Scooter kullanan opossum testi ise önceki GLM-5.1’den daha kötüydü; yani performans tamamen tutarlı değil
- Artificial Analysis, GLM-5.2’yi kendi Intelligence Index’inde lider açık ağırlık modeli olarak değerlendiriyor
- Aynı seviyedeki en ucuz model olduğunu ve maliyet/zeka sınırında yer aldığını düşünüyor
- Ancak görev başına yaklaşık 43k çıkış tokenı kullanan, token tüketimi yüksek bir model olarak da işaretliyor
- Nathan Lambert, LMArena lider tablosuna göre GLM-5.2’nin Gemini’den daha iyi bir ajan olarak görülebileceğini söyledi ve MIT lisanslı açık model olarak bunu “serious accomplishment” diye niteledi
- En üst ABD modelleri genel olarak hâlâ önde, ancak Çinli araştırma laboratuvarlarının daha az hesaplama ile yüksek skorlara ulaştığını vurguladı
Hangi modeli seçmeli?
- GLM-5.2, Opus fiyatının bir kısmına güçlü performans sunan bir açık ağırlık modeli
- Maliyet ve açıklığın önemli olduğu, işin ağırlıklı olarak metin ve mantık odaklı olduğu durumlara uygun
- İndirilebilir ağırlıklar, kapalı modeller gibi aniden emekliye ayrılıp kısıtlanamaz
- Opus testte daha hızlı, daha temiz ve daha doğru sonuç verdi
- Görsel çıktıları doğrudan görüp doğrulayabiliyor
- Doğruluk, polish ve görsel muhakemenin önemli olduğu ve maliyetin karşılanabildiği işler için daha uygun
- GLM-5.2, Opus’un yerine geçecek ana modelden çok; ucuz, her zaman erişilebilir ve güçlü bir yardımcı modele daha yakın
1 yorum
Hacker News görüşleri
Tek seferlik promptlama neden bu kadar büyük olay oluyor gerçekten anlamıyorum
Tanım gereği tek bir prompt, bir yazılım projesinin karmaşıklığını taşıyamaz. Sonuçta model, eğitim külliyatındaki mevcut koda dayanarak çeşitli varsayımlar yapıp bir sonuç üretiyor
Ben daha çok, insan tarafından gözden geçirilmiş bir spesifikasyonun korkuluklarına ve kodlama teamüllerine uyarak plan dosyasının adımlarını tam olarak izleyen bir kodlama ajanı görmek isterim. Ayrıca, insanın belirlediği hedef için ajan döngüsünün korkulukların dışına çıkmadan ve savrulmadan hedef tamamlanana kadar ilerleyip ilerlemediğinin de doğrulanması gerekir
Ayrıca, oluşturulmak istenen kullanım senaryosunun bağlamını kavrayıp mevcut kodda hata ya da performans iyileştirme fırsatlarını bulma ve refaktör önerme yeteneği çok daha değerli bir ölçüttür
Bu, çıktının girdiye uyup uymadığına bakan bir benchmark'tan çok, çıktının kendi içinde tutarlı olup olmadığına bakmaya daha yakın. Oyun örneğinde, hedefe ulaşıldığında bitip bitmediğine, dikenlere değince ölüp ölmediğine ya da hareket ederken garip sınır durumları oluşup oluşmadığına bakmak gibi
Yine de aynı çalışma ortamını kullanıp deneyi birkaç kez tekrarlayarak sonuçların varyansına da bakmak gerekirdi diye düşünüyorum
Eskiden bir framework'ün README'sini izleyip boş bir projede test ettikten sonra “bu framework bizim 10 yıllık production uygulamamız için en iyisi” diyen mühendislerle dalga geçerdim. Greenfield tarzı düşünme, tüm sorunların çözümü olduğu kadar tüm çözümlerin de sorunudur
Tek seferlik yetenek de önemli bir öz ölçüm metriği, o yüzden ölçülmeli; ama yerleşmiş bir büyük ölçekli kod tabanı üzerinde ölçülmeli
Claude Code ve Opus'un büyük ilgi görmesinin nedeni, yürütme ortamının gelişmesi sayesinde kullanıcı girdisi olmadan da birçok hatayı kendi kendilerine düzeltebilir hale gelmeleri. Uzun vadede en büyük ilerleme muhtemelen saatler ölçeğinde özerklik ve öz-düzeltme yeteneğinde olacak
Birkaç giriş token'ıyla milyonlarca token üretmenin çok anlam aktardığını düşünmüyorum
Daha iyi modelleri değerlendirmek için işe daha fazla gereksinim eklersiniz. Gerçekçi bir kullanım senaryosu olmasa bile yararlı bir yöntem olduğunu düşünüyorum
Elbette bir yazılım mühendisi yönlendirirse model çok daha iyi sonuçlar üretebilir. Mühendise göre daha kötü de olabilir
“Aynı tek seferlik promptla Claude Opus 4.8'i kafa kafaya yarıştırdım: saf WebGL ile sıfırdan 3D platform oyunu yapmak” tarzı tek bir seferlik çalıştırma benchmark değildir ve gerçek kullanımı da temsil etmez
Ajan kullanımının çoğu işbirlikçidir; bu yüzden bir görevi verdiğinizde test sonuçlarını uydurmadan tamamlayıp tamamlamadığı gibi güvenilirliği ve talimatlarınızı mı izlediği yoksa kendi bildiğini mi yaptığı gibi yönlendirilebilirliği test etmek gerekir
Bu test, her iki modele de uzun süren ve teknik olarak zor bir tek seferlik görev verdiğinizde neler yapabildiklerini gösteriyor
İşbirliği, görev devri, tamamlama, test güdümlü geliştirme ve yönlendirilebilirliği inceleyen formatların gelecekte kesinlikle denenmeye değer iyi testler olduğunu düşünüyorum
Düşününce, benim yaptığım ajan işlerinin çoğu, ana oturum içinde kendi promptlarıyla çalışan alt ajanlardan oluşuyor. Bunlar da tam özerk çalışmanın kısa birer versiyonu sayılabilir
Yazıda da bunlardan söz ettim; bunu kendi başına resmi bir benchmark olarak tasarlamadım. Resmi benchmark zaten yeterince var
Anthropic sürekli 529 Overloaded döndürdüğü için dün GLM 5.2'ye kaydolup denedim
Hoşuma gitti ama GLM 5.2'nin xhigh ayarında, tek bir oturumda sadece 2 promptla 5 saatlik sıfırlama penceresindeki light plan kullanımımın %22'sini yedi
Sonuçtan memnun kaldım ve kalite de iyiydi. İkisini de kullanmak istiyorum; keşke Anthropic ve GLM'i birlikte kullanabileceğim birleşik bir abonelik planı olsa
Birkaç projede GLM 5.2 kullanınca edindiğim izlenim, kod yazmaya başlamasının epey zaman aldığı ve asla hızlı bir model olmadığı yönünde
Keşif ve planlama aşamasında sık sık yoldan çıkıyor ama sonra toparlıyor; yönlendirmesi de kolay değil, çünkü sonradan uymayacağı şeyleri halüsinasyon olarak üretiyor. Yine de çıktı kalitesi oldukça iyi
Örneğin Swift+Zig kod tabanında render'ı optimize ettim ama 5 bin veri öğesinde takılı kaldım. GLM 5.2, benchmark oluşturup veri çıkarmak için 20 dakika harcadı; ben de sinirlenip düzenleme dışındaki araç erişimini kapatıp başından ayrıldım. Yaklaşık 30 dakika sonra döndüğümde, önceden hazırladığı benchmark ve birkaç “sonuç” temelinde üç darboğazı optimize etmişti; ayrıca şüphelerini doğrulayamadığı için daha fazla veriye ihtiyaç olduğunu da söylemişti
Uygulama iyi çalışıyordu, deyim yerindeyse idiomatiktı ve müdahaleci değildi. Hatta aynı depoda GPT 5.5'in ürettiği sonuçtan daha idiomatik olduğunu bile söyleyebilirim. Daha çok kullanmak isterdim ama GPT genelde aynı isteği 5 kat daha hızlı bitiriyor
GLM 5.2 sayesinde izole konteynerler ve JJ workspace içinde birden fazlasını paralel çalıştıran bir kurulum hazırlamaya başladım
Sorun, macOS menü çubuğunda sol tıklamayı yakalamak ve Ctrl+tıklama ya da sağ tıklamanın, belirli koşullarda normal sol tıklama gibi menüyü açmasını sağlamaktı
Sorun çözme oturumunun ortasında modeli GLM-5.2'ye çevirdim; promptu yeniden bile vermedim, akıl yürütmenin ortasında değiştirdim ve birkaç dakika sonra sorun çözülmüştü. Bunu OpenCode Go'nun abonelik tabanlı kotasıyla kullandım; bu tür bir sorun Opus kullanımını mevcut 5 saatlik pencerenin hatta haftalık sınırın tamamını bile tüketebilirdi
Modelin raydan çıktığını ya da benim söylemediğim bir şeyi keşfettiğini görünce durdurup düzeltebiliyorsunuz. Ya da neden o seçimi yaptığını öğrenebildiğiniz için sonradan kafanızda daha az soru kalıyor
Benim deneyimime de benziyor. Pi'de kullanıyorum; akıllı ve çıktısı da iyi ama oraya giden süreç verimli değil
“GLM-5.2 görüntü okuyamadığı için sorun burada çıktı. Çünkü multimodal değil. Bu yüzden ekran görüntüsüne bakmak yerine ham piksel verisini okuyup renklerin kabaca beklendiği gibi çıkıp çıkmadığını kontrol eden bir script yazma hilesine başvurdum” deniyor; ama daha iyi yöntem https://github.com/openbmb/MiniCPM-V kullanmak
Gerçekten istersen görseller için Opus'u da çağırabilirsin, yine de maliyetten tasarruf edersin gibi görünüyor
Açık kaynak modelleri denemek için Ollama'ya kaydoldum
Son 3 aydır sürekli deneyip kullanma seviyesindeydim ama GLM, Claude'la birlikte gerçek kodlama işlerinde her gün kullandığım ilk model oldu. Oldukça iyi, o yüzden her gün Ollama kullanım limitimi dolduruyorum
GLM daha az token harcıyor ve daha az araç çağrısı yapıyor ama tamamlaması iki katından uzun sürüyor
Bu süre modelin çalışmasından kaynaklanmıyorsa nerede harcanıyor merak ediyorum
Tek tek araç çağrıları daha karmaşık olduğu için mi daha uzun sürüyor, yoksa model token başına daha fazla hesaplama yaptığı için saniye başına token sayısı mı daha düşük?
Ayrıca GLM 5.2 ya da DeepSeek v4 Pro gibi bazı açık ağırlıklı modellerin token üretim hızı çok daha yavaş, bu da hissedilen gecikmeyi etkiliyor. Yine de GLM 5.2'ye yavaş bir model demek zor; örneğin şu anda Notion içindeki en hızlı modellerden biri
Bir diğer olasılık da Opus'un Mixture of Experts gibi bir yaklaşım kullanması; bu durumda belleğe aynı anda alınan model kısmı GLM'den daha küçük olabilir
GLM 5.2'nin anlamlı başarı elde etmesini sınırlayan büyük bir sorun var: kodlama aboneliğinin değeri
Yalnızca API fiyatına bakarsan GLM 5.2 rakiplerini geçiyor. Ama kodlama işleri için API ücretlendirmesini kullananlar çoğunlukla büyük şirketler ve buralarda da ciddi şekilde sübvanse edilen abonelik ürünleri giderek kayboluyor
Aynı zamanda bu şirketler çalışanlarına Çin API'leri kullandırmayacaktır
Bireyler ve küçük ekipler açısından Z.ai'nin kodlama aboneliği Anthropic ve OpenAI'den daha zayıf. Claude'la benzer kullanım miktarı alınabilir belki ama Codex'te ödenen paraya karşılık alınan kullanım kesinlikle daha fazla
Z.ai'nin GPT5.5 ve Opus 4.8'e ne kadar yaklaştığı tartışılabilir ama hepsinin aynı fiyat olduğu bir dünyada özgürce seçim yapabilseydim GLM'i seçmezdim
Bu yüzden asıl soru, GLM 5.3 ya da 6 ile Z.ai ürününün ne kadar iyileşeceği ve OpenAI ile Anthropic'in yakın gelecekte mevcut ürünlerini ne kadar kısıtlayacağı
Bu şirketler için, ellerinden alınamayacak bir yapay zekayı merkeze alarak altyapı kurmanın anında bir değeri var. Avrupa dışındaki diğer ülkeler ise fiyata daha duyarlı ve Çinli şirketlerle ilişki kurma konusunda aynı korkuları taşımıyor
Aynı zamanda, “bu şirketler çalışanlarına Çin API'leri kullandırmaz” diyorsak, GLM sunan Amazon Bedrock'ın kimi hedeflediğini merak ediyorum
Bireyler muhtemelen DeepInfra gibi daha ucuz ABD sağlayıcılarını seçer. GLM'in önbellekli girdisi 1 milyon token başına $0.18, Opus ise $0.50. Fireworks AI da bir seçenek
20 ya da 100 dolarlık planlarla binlerce dolarlık token tüketerek kod yazmaya alışan çalışanlar ve öğrenciler, kurumsal harcamayı itecektir
Rekabetçi bir Çin modeli çıkmış olması bu kurumsal harcamanın yerini almaz ama ABD ya da AB'de barındırılan açık modeller alabilir
GLM 5.2'nin varlığı, OpenAI ile Anthropic'in API erişimi için koyabileceği fiyata bir tavan getiriyor
Benim tahminim, işlerin çoğu kodlama planları içinde yapılıyor
Ama kullanım limiti dışında da planların fazla kısıtlayıcı olması sinir bozucu. Anlaşılır ama rahatsız edici. Pratikte gerçekten katı olanlar sanırım sadece Anthropic ve belki Google
Anthropic, kullanımın hizmet şartlarına uymadığını düşünürse sonradan API tarifesi üzerinden ücret çıkarabileceğine dair bir politikayla insanları korkuttu. Yersiz bir endişe olabilir ama gerçekten yapabilecekleri hissi verdiği için uzak durmama neden oluyor
Ama oradaki altyapı açıkça aşırı yüklüydü; 5.2 sohbet istekleri %100 zaman aşımına uğradı. Altyapı model performansına yetişirse daha sonra tekrar denerim; ancak o zaman aboneliğin değerli olup olmadığına karar verebilirim
Bugün GLM-5.2'nin estetik duyarlılık ve UI işlerinde GPT-5.5'ten çok daha iyi olmasına şaşırdım
Şimdilik Conductor üzerinden Claude/Codex kurulumunu koruyacağım ama bu model yüzünden OpenCode'u kurup masaüstü uygulamasını indirdim ve bugünkü işlerin çoğunu orada yaptım
“GLM-5.2 çok daha ucuza mal oldu. Opus süreci yarı sürede bitirdi ve daha temiz bir oyun çıkardı” gibi cümleleri görünce hemen LLM tarzı yazım hissediliyor
Sanki tüm modeller bu yazı stiline yakınsamış gibi ve performans artsa da bu taraf pek değişmiyor gibi görünüyor
Teknik yazarlık sektörü şu anda büyük bir darbe alıyor. Şirketler daha kısa sürede daha fazla iş talep ediyor ve kalite ciddi biçimde düşüyor; bu yüzden yazıların cümle kalitesini gündelik olarak cilalamaya ayıracak zaman giderek azalıyor
Biz şu anda bu değişimin en ön hattında çalıştığımız için en büyük etkiyi biz hissediyoruz, ama aynı zamanda değişimi ilk deneyebilen tarafta olmak da hem heyecan verici hem de son derece sinir bozucu