5 puan yazan GN⁺ 2025-07-11 | 5 yorum | WhatsApp'ta paylaş
  • xAI’ın Grok 4’ü, başlıca benchmark’larda 1 numaralı yapay zeka modeli oldu
  • AAI Index’te Grok 4, 73 puanla OpenAI o3’ü (70 puan), Google Gemini 2.5 Pro’yu (70 puan), Anthropic Claude 4 Opus’u (64 puan) ve DeepSeek R1 0528’i (68 puan) geride bıraktı
  • Grok 4, kodlama ve matematik benchmark’larında da en yüksek skorları aldı; GPQA Diamond (%88), Humanity’s Last Exam (%24) gibi alanlarda yeni rekorlar kırdı
  • Fiyatı Grok 3 ile aynı; token başına ücret Claude 4 Sonnet ile aynı, Gemini 2.5 Pro ve o3’ten ise biraz daha pahalı
  • 256k token context window, metin/görsel girişi, function calling, structured output desteği gibi başlıca özellikleri sunuyor

Grok 4, xAI’ın lider modeli oldu

  • Artificial Analysis Intelligence Index’te 73 puan alarak Grok 4, başlıca benchmark’larda ilk sıraya yerleşti
  • OpenAI o3 (70 puan), Google Gemini 2.5 Pro (70 puan), Anthropic Claude 4 Opus (64 puan) ve DeepSeek R1 0528’den (68 puan) daha yüksek skor alarak, xAI’ın ilk kez yapay zeka liderliğini ele geçirdiği örnek oldu
  • Önceki Grok 3 de rekabetçiydi, ancak Grok 4, xAI’ın liderliği aldığı ilk model oldu

Benchmark ve değerlendirme sonuçları

  • Kodlama endeksinde (LiveCodeBench & SciCode) ve matematik endeksinde (AIME24 & MATH-500) her ikisinde de 1. sırada yer aldı
  • GPQA Diamond %88 ile Gemini 2.5 Pro’nun önceki rekorunu (%84) geçti
  • Humanity’s Last Exam %24 ile Gemini 2.5 Pro’nun önceki skorunun (%21) üzerine çıktı
  • MMLU-Pro %87, AIME 2024 %94 gibi alanlarda da ortak en yüksek skoru elde etti
  • Çıkış hızı saniyede 75 token ile o3’ten (188), Gemini 2.5 Pro’dan (142) ve Claude 4 Sonnet Thinking’den (85) daha yavaş, ancak Claude 4 Opus Thinking’den (66) daha hızlı

Diğer önemli bilgiler

  • 256k token context window sunuyor (Gemini 2.5 Pro: 1M, Claude 4 Sonnet/Opus: 200k, o3: 200k, R1 0528: 128k ile kıyaslandığında üst sıralarda)
  • Metin ve görsel girişi desteği
  • Function calling ve structured output desteği
  • Fiyatlandırma politikası: Grok 3 ile aynı şekilde, 1M giriş/çıkış tokenı başına $3/$15, cache giriş tokenı başına $0.75
    • Claude 4 Sonnet ile aynı, Gemini 2.5 Pro ve o3’e göre ise biraz daha pahalı
  • Grok 4, xAI API’si, Grok chatbot’u (X/Twitter) ve Microsoft Azure AI Foundry üzerinden sunulacak

Özet

  • Grok 4, xAI’ın liderliğe çıkan ilk yapay zeka modeli olarak benchmark’larda ve sayısal göstergelerde başlıca rakip modellerin tamamını geride bırakıyor
  • Güçlü muhakeme yeteneği, çeşitli giriş/çıkış biçimleri ve yüksek context desteğiyle sektördeki liderliğini gösteriyor
  • X/Twitter için olan model ile API için olan modelin uygulama ayrıntıları farklı olabilir

5 yorum

 
slowandsnow 2025-07-11

Önce ücretsiz sunulana kadar inanmıyorum. Grok zaten 30 dolar bile, abone olmaya çekiniyorum...

 
paruaa 2025-07-11

Alignment süreci daha az olan bir modelin performansı gibi düşünmek gerekir sanırım; ama muhtemelen tepki çekip performansı düşmez mi diye düşünüyorum.

 
click 2025-07-11

gemini cli kullanırken 1M bağlam sayesinde kullanıcı deneyimi bambaşka bir seviyedeydi
Kod tabanının tamamını bir seferde bağlama koyabilmek tam bir oyun değiştirici.

 
koolgu 2025-07-11

Merak ediyorum; bağlam boyutu model kullanımını ne kadar etkiliyor da hâlâ benchmark’lar ve dışarıdan görünen şeylere bakıp neyin birinci olduğunu söylemek, konuyu bilmeyenlere yönelik viral pazarlama yapmaktan ne kadar farklı?

 
GN⁺ 2025-07-11
Hacker News görüşü
  • Grok için kimin para ödeyeceğini hayal edemiyorum; üstelik son zamanlarda tamamen raydan çıkmış gibi görünüyor, xAI'ın değerlemesi de tam bir yanılsama
    • Ben Grok için para ödüyorum, birkaç aydır Google yerine Grok kullanıyorum; X graph'a erişebildiği için gerçekten çok kullanışlı ve oldukça güncel bilgi de var, keşke Cline veya Cursor'da da kullanılabilse
    • Sorun çıkaranın Grok modeli değil, X'in @grok botu olduğunu biliyor musun diye merak ediyorum; Grok'un API sürümü anlamsızca bir anda Hitler taklidi yapmıyor (özellikle istemediğin sürece)
  • ARC-AGI2'de o3'ün 4 katı, opus 4'ün 2 katı performans göstermiş... diğer bağımsız benchmark'larda da güçlü sonuçlar geliyor, her modelin bir aylığına "dünyanın en iyisi" olduğunu iddia ettiği kısa döngülü moda sürüp gidiyor, bu fiyat seviyesinde olması tüketici için iyi, açık modellerin eğitim veri setleri de daha çeşitli hale geliyor, yani kazan-kazan, tanınmış kişiler etrafındaki duygusal kavgalar yüzünden baş ağrıtan bahanelerin dönüp durmasını izlemek üzücü, birçok insanın medya detoksuna ihtiyacı var, eskiden LLM'lere "stokastik papağan" deniyordu ama şimdi bu başlığa ve Reddit'e bakınca, aptalca ve nefret dolu şeyleri papağan gibi tekrarlayanların aslında insanlar olduğu görülüyor, daha iyi olmalıyız
  • Kodumda bundan sonra da Hitler'le ilgili yanıtlar çıkıp çıkmayacağını merak ediyorum, düzeltme: Bunun bir başka "dahiyane" pazarlama hamlesi olduğunu fark etmediğim için kendimi aptal hissediyorum