- xAI’ın Grok 4’ü, başlıca benchmark’larda 1 numaralı yapay zeka modeli oldu
- AAI Index’te Grok 4, 73 puanla OpenAI o3’ü (70 puan), Google Gemini 2.5 Pro’yu (70 puan), Anthropic Claude 4 Opus’u (64 puan) ve DeepSeek R1 0528’i (68 puan) geride bıraktı
- Grok 4, kodlama ve matematik benchmark’larında da en yüksek skorları aldı; GPQA Diamond (%88), Humanity’s Last Exam (%24) gibi alanlarda yeni rekorlar kırdı
- Fiyatı Grok 3 ile aynı; token başına ücret Claude 4 Sonnet ile aynı, Gemini 2.5 Pro ve o3’ten ise biraz daha pahalı
- 256k token context window, metin/görsel girişi, function calling, structured output desteği gibi başlıca özellikleri sunuyor
Grok 4, xAI’ın lider modeli oldu
- Artificial Analysis Intelligence Index’te 73 puan alarak Grok 4, başlıca benchmark’larda ilk sıraya yerleşti
- OpenAI o3 (70 puan), Google Gemini 2.5 Pro (70 puan), Anthropic Claude 4 Opus (64 puan) ve DeepSeek R1 0528’den (68 puan) daha yüksek skor alarak, xAI’ın ilk kez yapay zeka liderliğini ele geçirdiği örnek oldu
- Önceki Grok 3 de rekabetçiydi, ancak Grok 4, xAI’ın liderliği aldığı ilk model oldu
Benchmark ve değerlendirme sonuçları
- Kodlama endeksinde (LiveCodeBench & SciCode) ve matematik endeksinde (AIME24 & MATH-500) her ikisinde de 1. sırada yer aldı
- GPQA Diamond %88 ile Gemini 2.5 Pro’nun önceki rekorunu (%84) geçti
- Humanity’s Last Exam %24 ile Gemini 2.5 Pro’nun önceki skorunun (%21) üzerine çıktı
- MMLU-Pro %87, AIME 2024 %94 gibi alanlarda da ortak en yüksek skoru elde etti
- Çıkış hızı saniyede 75 token ile o3’ten (188), Gemini 2.5 Pro’dan (142) ve Claude 4 Sonnet Thinking’den (85) daha yavaş, ancak Claude 4 Opus Thinking’den (66) daha hızlı
Diğer önemli bilgiler
- 256k token context window sunuyor (Gemini 2.5 Pro: 1M, Claude 4 Sonnet/Opus: 200k, o3: 200k, R1 0528: 128k ile kıyaslandığında üst sıralarda)
- Metin ve görsel girişi desteği
- Function calling ve structured output desteği
- Fiyatlandırma politikası: Grok 3 ile aynı şekilde, 1M giriş/çıkış tokenı başına $3/$15, cache giriş tokenı başına $0.75
- Claude 4 Sonnet ile aynı, Gemini 2.5 Pro ve o3’e göre ise biraz daha pahalı
- Grok 4, xAI API’si, Grok chatbot’u (X/Twitter) ve Microsoft Azure AI Foundry üzerinden sunulacak
Özet
- Grok 4, xAI’ın liderliğe çıkan ilk yapay zeka modeli olarak benchmark’larda ve sayısal göstergelerde başlıca rakip modellerin tamamını geride bırakıyor
- Güçlü muhakeme yeteneği, çeşitli giriş/çıkış biçimleri ve yüksek context desteğiyle sektördeki liderliğini gösteriyor
- X/Twitter için olan model ile API için olan modelin uygulama ayrıntıları farklı olabilir
5 yorum
Önce ücretsiz sunulana kadar inanmıyorum. Grok zaten 30 dolar bile, abone olmaya çekiniyorum...
Alignment süreci daha az olan bir modelin performansı gibi düşünmek gerekir sanırım; ama muhtemelen tepki çekip performansı düşmez mi diye düşünüyorum.
gemini clikullanırken 1M bağlam sayesinde kullanıcı deneyimi bambaşka bir seviyedeydiKod tabanının tamamını bir seferde bağlama koyabilmek tam bir oyun değiştirici.
Merak ediyorum; bağlam boyutu model kullanımını ne kadar etkiliyor da hâlâ benchmark’lar ve dışarıdan görünen şeylere bakıp neyin birinci olduğunu söylemek, konuyu bilmeyenlere yönelik viral pazarlama yapmaktan ne kadar farklı?
Hacker News görüşü