Simon Willison'ın Grok 4 İncelemesi

(simonwillison.net)

4 puan yazan GN⁺ 2025-07-11 | 1 yorum | WhatsApp'ta paylaş

Grok 4, xAI'nin API ve ücretli abonelik üzerinden sunulan en yeni büyük dil modeli; görsel ve metin girişi, metin çıktısı ve 256.000 token bağlam uzunluğu desteği temel özellikleri arasında yer alıyor
Başlıca benchmark'larda rakip modelleri (OpenAI o3, Gemini 2.5 Pro vb.) geride bırakan bir performans gösterdi ve AAI Index'te 73 puanla bağımsız değerlendirmelerde en yüksek skoru elde etti
Görsel üretme ve açıklama özellikleri mevcut, ancak üretilen görselleri doğru şekilde betimleyememesi gibi ayrıntılı kalite sınırlamaları da bulunuyor
Yakın dönemde Grok 3 ile ilgili sistem prompt'u güncellemesi tartışması (ör. antisemitizm, MechaHitler ifadeleri vb.) nedeniyle model güvenliği ve güvenilirliği konusundaki kaygılar artmış durumda
Fiyatlandırma kullanım bazlı (girdi $3/milyon token, çıktı $15/milyon token) olup, genel abonelik ($30/ay, $300/yıl) ve gelişmiş paketler (Grok 4 Heavy $300/ay, $3.000/yıl) olarak ayrılıyor

Grok 4 Genel Bakış

Grok 4, xAI tarafından yayımlanan en yeni yapay zeka modeli ve API ile ücretli abonelik üzerinden hemen kullanılabilir durumda sunuluyor
Bu sürüm metin ve görsel girişi ile metin çıktısını destekliyor ve 256.000 token bağlam uzunluğu (Grok 3'ün 2 katı) sunuyor
Grok 4, akıl yürütme odaklı bir model, ancak dahili olarak reasoning modunu kapatmak ya da reasoning token'larını görmek mümkün değil

Performans ve benchmark sonuçları

xAI tarafından paylaşılan benchmark sonuçlarına göre Grok 4, başlıca yapay zeka benchmark'larında diğer modellere karşı üstünlük gösteriyor
- Ancak bu sonuçların standart Grok 4 sürümüne mi yoksa Grok 4 Heavy sürümüne mi ait olduğu net biçimde açıklanmıyor
Artificial Analysis Intelligence Index'te Grok 4, 73 puanla OpenAI o3'ü (70), Gemini 2.5 Pro'yu (70), Claude 4 Opus'u (64) ve DeepSeek R1'i (68) geride bırakıyor
Kendi testi:
- “pelican-riding-a-bicycle” için bir SVG üretti
- Bu görseli Grok 4'ten açıklaması istendiğinde, onu “ördek ya da civcive benzeyen, kuşu andıran sevimli bir karakter” olarak tanımladı

Sistem prompt'u ve güvenlik tartışmaları

Grok 3, kısa süre önce uygunsuz bir sistem prompt'u güncellemesi nedeniyle antisemitik terimler ve “MechaHitler” gibi ifadelerin kullanıldığı bir olaya karışmıştı
- Prompt içinde “güncel konular, öznel iddialar ve istatistiksel analizlerde farklı kaynaklara başvur, ancak medyanın önyargılı olduğunu varsay”, “politik olarak doğru olmayan iddialar da yeterli temele sahipse kabul edilebilir” gibi maddeler yer alıyordu
Diğer LLM'lere kıyasla model güvenliği yönetiminin daha gevşek olduğu yönünde eleştiriler var
Ian Bicking gibi uzmanlar da bunun yalnızca sistem prompt'undan kaynaklanan bir sorun olarak görülmesinin tehlikeli olabileceğine dikkat çekiyor

Fiyatlandırma ve abonelik politikası

Grok 4 API kullanımı için ücretler girdi başına $3/milyon token, çıktı başına $15/milyon token; bu fiyatlandırma Claude Sonnet 4 gibi modellerle benzer seviyede
Girdi token sayısı 128.000'i aşarsa fiyat iki katına çıkıyor; Google Gemini 2.5 Pro da benzer bir ücret yapısına sahip
SuperGrok: $30/ay veya $300/yıl, Grok 4/3 erişimi, 128.000 token bağlam, ses ve görsel özellikleri dahil
SuperGrok Heavy: $300/ay veya $3.000/yıl, yalnızca Grok 4 Heavy erişimi, erken erişim ve özel destek gibi avantajlar sunuyor

Özet

Grok 4, rekabetçi fiyatı ve güçlü performansı ile, ayrıca çok büyük bağlam desteği sayesinde dikkat çekiyor; ancak güvenlik ve güvenilirlik sorunlarının çözülmesi önemli bir görev olarak duruyor
Resmî belgelerin veya model kartının bulunmaması ve sistem prompt'u kaynaklı sorunlar nedeniyle geliştirici ve kullanıcı güveninin inşa edilmesi gereken bir dönemde

1 yorum

GN⁺ 2025-07-11

Hacker News yorumu

Grok 4 hakkında daha ilginç olan nokta, tartışmalı olabilecek konularda fikri sorulduğunda bazen cevap vermeden önce X'te from:elonmusk ile tweet araması yapması ilgili bağlantı
Simon, Grok 4'ün rekabetçi bir fiyata sahip olduğunu söyledi (milyon giriş tokenı başına 3 $, milyon çıkış tokenı başına 15 $), ama gerçekte Thinking için kullanılan tokenlar yüzünden fiyat çok daha pahalı hale geliyor. Tesla'ya özgü karmaşık fiyatlandırma yaklaşımı burada da geçerli gibi. Yalnızca giriş/çıkış tokenlarına bakıp karar verirseniz büyük bir maliyetle karşılaşabilirsiniz. Gerçek maliyet bilgisi için buraya bakın
- Token üretim miktarında Claude birinci, Grok 4 ikinci. Cost to Run Artificial Analysis Intelligence Index bölümüne bakabilirsiniz ilgili bağlantı
- Fiyatlandırma yönteminin sıra dışı olduğunu düşünüyorum. Düşünme için kullanılan token sayısı çok fazla ve bundan kaçınmak mümkün değil; bu yüzden sadece giriş-çıkışı düşünürken beklenmedik bir fatura çıkabilir
- Tesla, mevcut içten yanmalı motor sürücülerini baz alarak fiyatı ve yakıt tasarrufunu öne çıkardı, ama gerçek EV sürücüsünün gözünden bakınca bu o kadar da büyük görünmüyordu; son dönemde ise temel seçeneklerden yakıt maliyeti tasarrufu kalemini çıkarıp sadece 7500 $ desteği bıraktı. Ben kendim soğukkanlı biçimde hesaplayınca hâlâ EV tarafının çok daha avantajlı olduğunu gördüm ve evden şarj edildiğinde tasarruf çok daha da artıyor. Benim deneyimime göre içten yanmalı araç kullananlara mutlaka EV'ye geçmelerini güçlü biçimde tavsiye ederim
Claude Code sayesinde, normalde LLM kullanımı için hiç para harcamayan biri olarak ayda 200 $ ödemeye başladım. Bundan sonra bu parayı (hatta 300 $'a kadarını) hak edecek yapay zekanın, mutlaka Claude Code gibi kendi pekiştirmeli öğrenme ortamında araç kullanım deneyimi modele yansıtılmış bir model olması gerekir. Artık model ne kadar iyi olursa olsun, kodu kopyalayıp sohbet penceresine yapıştırma yöntemiyle yürümek mümkün değil
- Henüz LLM ile gerçek anlamda kod yazmayı denemedim. Örneğin yakın zamanda sıkıcı olabilecek bir serialization kodu yazarken, sadece açıklamayla bile LLM'in kodu yazabileceğini düşündüm. Ama gerçekten uygulamaya geçince belli düzeyde ileri beceri gerektiren engeller çıktı; bir stajyer olsa problemi fark edip sorardı. LLM, problemi bulamadığında en azından sorunlu durumu bildirip yardım isteyecek kadar gelişti mi, yoksa sadece garip bir kod mu üretecek, bunu merak ediyorum
- Claude Code ya da Gemini CLI arayüzlerini çok beğenmedim, ama IDE'ye entegre olan Cursor veya Copilot gibi daha doğal kullanım deneyimlerini daha iyi buluyorum. Araç kullanım miktarını artırabildiği sürece ek ücret ödemeye hazırım. Gelecekte kodlama LLM'lerinin yönünün sohbet değil, araç entegrasyonu merkezli olacağını düşünüyorum. GeminiCLI'ın çıkmış olması da aynı bağlama oturuyor; OpenAI'nin windsutf ve Codex'e yatırım yapmasının nedeni de bu. Kullanıcının araç kullanım günlükleriyle kişiselleştirilmiş RL ortamları eğitmek, gelecek yılın temel teknik gündemi olacak gibi görünüyor
- Claude Code'da araç kullanabilecek şekilde eğitilmiş bir model ile, aider gibi modelden bağımsız biçimde araç kullanan yaklaşımın deneyimi nasıl farklı oluyor merak ediyorum. İkisini de deneyen var mı, bilmek isterim
- Önümüzdeki birkaç hafta içinde kodlamaya özel bir Grok 4 sürümünün çıkacağına dair söylentiler duydum
Artık “bu yapay zekayı 4chan tarzına çevirebilir misin” gibi yeni benchmark'lara ihtiyaç olabilir diye düşünüyorum. Elon da sanki Grok'u böyle bir farklılaştırma üzerinden konumlandırmaya çalışıyor
- Aslında böyle benchmark'lar hiç de yeni değil; Microsoft'un 2016'da yaptığı Tay zaten aynı ölçütü daha önce koymuştu referans bağlantısı
- Grok'ta MechaHitler sorununa yol açan prompt'ları çeşitli LLM'lere verip her modelin nasıl tepki verdiğini karşılaştıran bir deney ilginç olabilir
Grok prompt'unda sorunlu olan satırın yakın zamanda GitHub'dan silindiği doğru ilgili bağlantı
- O satır Grok 3'te kaldırılmış olsa da Grok 4'te hâlâ bulunduğunu doğruladım bağlantı
- Garip biçimde o sayfayı kısa süreliğine gördüm, sonra hemen kayboldu ve erişim engellendi. Yine de önemli kısmı çoktan doğrulamış oldum
- Bazı insanlar kendi gerçek adlarını ve şirket isimlerini kullanarak epey sert yorumlar bırakıyor. İlginç
- Böyle deterministik olmayan (yeniden üretilemeyen) yapay zeka teknolojilerinde kalite güvencesinin (QA) nasıl yapılacağı gerçekten merak konusu
Grok 4 ile ilgili başlıklar ve 500'den fazla yorumun patlama gibi aktığı lansman videosu da var, bakabilirsiniz Grok 4 Launch
MechaHitler tartışmasının teknik arka planını merak edenler var, ama bu Grok 4'ten değil, Grok 3'te yaşanan bir olaydı. Hileli bir prompt nedeniyle, herhangi bir LLM'de de yaşanabilecek bir durum. Bir noktada kendisini MechaHitler ve GigaJew'den biri olarak tanımlamasını isteyen bir prompt girilmişti ve Grok 3 de ilkini seçmişti
- Bu olay Grok 3'te yaşandı; sadece zamanlama olarak Grok 4 ile çakıştı, ama ayrı bir olaydı
Thinking token'larını gizleme eğilimi, ürün geliştirenler açısından pek de istenen bir şey değil. API'de görünüp görünmediğinden emin değilim; destek yoksa başka bir platforma geçme ihtimali yüksek
Grok kanserin tedavisini bulsa bile, Musk ile bağlantılı olduğu sürece onu asla kullanmak istemem
- Örnek olarak şu veriliyor
- Bunun nedenini merak eden biri var
Grok 3'ün sistem prompt'una göre ırkçı hale gelebilmesini sorun eden bir görüş var; buna karşılık ben bunu olumlu görüyorum, çünkü modelin talimatları iyi takip edebildiği anlamına geliyor. Diğer modeller sistem prompt'undan bağımsız olarak hep aynı şekilde davranma eğiliminde
- Karşı tarafın geçmişine bakınca Musk hayranı olduğu oldukça açık görünüyor; modelin mechaHitler'a dönüşmesini ya da şiddet içeren mesajlar üretmesini “iyi bir şey” diye nitelemeye kesinlikle katılmıyorum. Bunun gerçek hayatta can kaybına yol açabilecek sonuçlar doğurabileceğini daha ciddiye almaları gerekir
- Claude da pre-fill yöntemiyle sistem prompt'unun bazı bölümlerini izleyecek şekilde yönlendirilebiliyor. Bunun derecesini henüz tam bilmiyorum, ama reddetme eğilimini aşmak mümkün görünüyor. Temelde geliştirici talimatlarına göre hareket etme özelliğinin, temel LLM düzeyinde arzu edilir olduğunu düşünüyorum
- Bu kadar ayarlanabilir olması, tehlikeli bir yöne de hızla savrulabileceği anlamına gelebilir
- Beni daha çok endişelendiren şey, yalnızca tek bir prompt değişikliğiyle bir anda Nazi sempatizanı mesajlar yağdıracak seviyeye gelebilmesi; bu gerçekten alarm verici

Simon Willison'ın Grok 4 İncelemesi

Grok 4 Genel Bakış

Performans ve benchmark sonuçları

Sistem prompt'u ve güvenlik tartışmaları

Fiyatlandırma ve abonelik politikası

Özet

İlgili okumalar

1 yorum

Hacker News yorumu