Grok 4 yayınlandı

(twitter.com/xai)

7 puan yazan GN⁺ 2025-07-11 | 6 yorum | WhatsApp'ta paylaş

Grok 4, xAI'nin yaklaşık 2 yıl sonra piyasaya sürdüğü en yeni yapay zeka modeli olarak, her alanda lisansüstü öğrencileri geride bırakan zeka ve muhakeme yeteneği sunduğunu iddia ediyor
Eğitim ölçeği ve hesaplama kaynakları 100 kattan fazla artırıldı; pekiştirmeli öğrenme (RL) odağında gelişerek insan seviyesini aşan problem çözme yeteneğini kanıtladığı belirtiliyor
ARC-AGI skoru olarak %15,9'a ulaştı; mevcut yapay zekalar arasında en üst düzey soyut muhakeme ve genel zeka değerlendirmelerinde güçlü sonuçlar kaydetti
Humanity’s Last Exam (HLE) dahil çeşitli benchmark'larda, harici araç kullanılmadığında %26,9, araç kullanıldığında %41~50,7 gibi çarpıcı sonuçlar gösterdi
Native voice mode ile gerçek zamanlı konuşma, duygu ifadesi ve düşük gecikmeli yanıtlar sayesinde insana yakın etkileşim sağlıyor

Grok 4

Elon Musk tarafından kurulan xAI, yaklaşık 2 yıl sonra Grok 4'ü tanıttı ve bunun “dünyanın en iyi yapay zeka modeli” olduğunu vurguladı
SAT, GRE gibi standart sınavlarda tam puan aldığı ve tüm akademik alanlarda yüksek lisans ve doktora düzeyindeki sorularda eşi görülmemiş performans sergilediği belirtildi

"Akademik sorular söz konusu olduğunda Grok 4, tüm derslerde lisansüstü öğrencilerden daha akıllı."
Grok 2 bir kavram modeliydi, Grok 3 çeşitli veri kaynaklarına dayalı ön eğitime odaklanmıştı; Grok 4 ise Grok 2'ye kıyasla 100 kat, Grok 3'e kıyasla 10 kat daha fazla hesaplama kaynağı ve veriyle eğitildi
Colossus süper bilgisayarında (200 bin GPU) ön eğitim ve RL odaklı olarak eğitildi
- Pekiştirmeli öğrenmeye (RL) yoğunlaşıyor; modelin problem çözme sürecinde geri bildirim alıp performansını kademeli olarak geliştirdiği bir kendi hatasını düzeltme yapısını benimsiyor
- Mantıksal problem çözme yeteneği ve “first principles” düşüncesi temelinde kısa sürede en büyük ilerlemenin sağlandığı vurgulandı

Modelin 2 versiyonu

Temel model Grok 4 ve geliştirilmiş performans sürümü Grok 4 Heavy
Grok 4 Heavy, çoklu ajan yaklaşımıyla birden fazla ajanın aynı anda problemi çözüp sonuçlarını karşılaştırarak en iyi cevabı bulduğu kolektif zeka yapısını hayata geçiriyor
- SuperGrok Heavy abonelik hizmetiyle kullanılabiliyor (aylık 300 dolar)

AGI puanlamasında atılım

Grok 4, ARC-AGI testinde sektördeki en yüksek seviyelerden biri olan %15,9'luk bir skor elde etti
ARC-AGI, modelin genel zekasını ve soyut problem çözme yeteneğini değerlendiriyor; özellikle görsel örüntü tanıma ve yeni senaryolara uyum becerisini ölçüyor

Humanity's Last Exam (HLE) sonuçları

Ocak 2025'te tanıtılan Humanity’s Last Exam (HLE); matematik, biyoloji, sosyal bilimler, fizik, yapay zeka, mühendislik, kimya gibi 100'den fazla alanda 2.500 sorudan oluşan son derece zorlu bir benchmark
Grok 4'ün sonucu: "Gerçek insanların ya da mevcut yapay zekaların erişemeyeceği bir seviye"
- Araç kullanılmadan: %26,9
- Araç kullanımıyla (Grok 4 Heavy): %41
- Test sırasında ek hesaplama (32 kat) uygulandığında: en fazla %50,7
Araç kullanılmaması, soruların yalnızca yerleşik dil ve muhakeme yetenekleriyle çözülmesi anlamına geliyor; araç kullanımı ise kod çalıştırma, web arama, harici veri kullanımı gibi unsurlarla çoklu ajan sisteminin birleştiği yaklaşımı ifade ediyor
Training compute, 200 bin GPU tabanlı Colossus süper bilgisayarı üzerinde model bilgisini ve araç kullanım becerisini eğitmek için kullanılırken; test-time compute, soru çözümü sırasında birden fazla modelin paralel çalıştırılıp sonuçların doğrulanmasını içeriyor

“Grok 4, her alanda PhD seviyesinde ya da üstünde.”
"Yakında yeni teknoloji / yeni fizik keşifleri bile bekliyoruz."

Başlıca yapay zeka benchmark sonuçları

AIME: lise düzeyinde karmaşık matematik problemlerini çözme yeteneği
GPQA: fizik gibi lisansüstü düzeyde bilimsel muhakemeyi değerlendirme
LiveCodeBench: Python programlama challenge'ları üzerinden kodlama becerisini ölçme
MMLU-Pro: çeşitli uzmanlık alanlarında yüksek zorluktaki çoktan seçmeli soruları çözme yeteneği
LOFT: uzun metinlerde karmaşık sorgular için gerekli bilgiyi çıkarma becerisini değerlendirme

Pratik kullanım örnekleri ve gerçek dünya uygulamaları

İş simülasyonunda (VendingBench) Grok 4, önceki modellere göre 2 kattan fazla performans ve tutarlılık göstererek uzun vadeli strateji yürütme yeteneğini kanıtladı
Yaşam bilimleri laboratuvarlarında büyük ölçekli deney loglarının analizi, hipotez üretimi ve tıbbi görüntü yorumlamada kullanılarak gerçek iş verimliliğini gösterdi
Oyun geliştirmede oyun varlıklarının otomatik toplanması ve kod üretimine kadar destek vererek tek bir geliştiricinin 3D oyunu hızlıca tamamlamasını mümkün kılıyor

Native voice mode yeniliği

Grok 4, gerçek zamanlı sesli konuşmayı destekliyor; doğal kesintiler, duygusal tonlamayı anlama/yeniden üretme ve ultra düşük gecikmeli tepki ile mevcut TTS sistemlerini aşan insansı etkileşim sunuyor
Farklı ses türlerinin (Britanya aksanı, trailer tarzı vb.) eklenmesi ve canlı demolarla gerçek zamanlı konuşmanın akıcılığı, hızı ve çeşitli kullanım senaryoları gösterildi

API ve ekosistem genişlemesi

Grok 4, API olarak da sunuldu; böylece herkes benchmark testleri yapabiliyor ve iş uygulamalarına entegre edebiliyor
Finans, bilim, eğlence gibi çeşitli alanlardaki partnerler tarafından halihazırda benimseniyor ve gerçek dünya etkisi büyüyor
256k context length ile uzun ve karmaşık görevleri işleme yeteneği güçlendirildi

Sınırlamalar ve gelecekteki gelişmeler

Şu anda Grok 4'ün en büyük zayıflığı, görüntü ve video gibi alanlarda çok modlu anlama/üretme yeteneğinin yetersizliği
Eğitimi yakında tamamlanacak v7 foundation model ve daha da güçlendirilmiş RL ile vision, video ve audio tarafında kapsamlı iyileştirmeler planlanıyor
Video generation modeli için (100,000+ GB200 GPU kullanımıyla) geliştirme ve lansman duyuruldu

xAI'nin gelecek yol haritası

Ağustos 2025: coding model yayınlanacak
Eylül 2025: multimodal agent tanıtılacak
Ekim 2025: video generation model duyurulacak
Araçlar ve model performansı sürekli olarak güçlendirilmeye devam edecek

Sonuç ve çıkarımlar

Grok 4, muhakeme yeteneği ve akademik problem çözme kapasitesi açısından mevcut en güçlü yapay zekalarla gerçek anlamda rekabet ettiğini ya da öne geçtiğini gösteriyor
Benzeri görülmemiş zeka ve muhakeme, gerçek zamanlı sesli etkileşim, araç kullanımı ve çoklu ajan yapısıyla yeni nesil AGI için somut bir dönüm noktası sunuyor
Gerçek iş / iş dünyası / oyun / araştırma / eğlence gibi çok çeşitli alanlara yayılma potansiyeliyle, xAI en hızlı AGI şirketlerinden biri olarak konumlanabilir
xAI'nin hızlı geliştirme döngüsü ve agresif hamleleri, yapay zeka endüstrisindeki rekabetin giderek hızlandığını gösteriyor

6 yorum

xguru 2025-07-13

Grok 4 artık lider yapay zeka modeli
Simon Willison'ın Grok 4 incelemesi
Grok, İsrail-Filistin meselesi hakkında Elon Musk'ın X'te ne dediğini arıyor

xguru 2025-07-11

Gerçekte kullanmadan bilemeyiz tabii ama 200 bin GPU ve yetenek havuzuyla bu kadar agresif büyüme de mümkün oluyormuş.
Colossus 1 milyon GPU’ya çıkarsa acaba daha ne kadar iyi olur.

H100’ü 50 milyon won sayarsak yalnızca GPU maliyeti 50 trilyon won. Veri merkezi kurmak gerekiyor, etrafta enerji altyapısı da lazım; buna bir 20 trilyon won daha eklendiği söylenince toplam 70 trilyon won ediyor. Yapay zeka giderek daha çok para savaşına dönüşüyor gibi.

jujumilk3 2025-07-11

Neden bir anda yüksek lisans öğrencilerini işin içine katıp gömüyorlar ki lol

sknah 2025-07-11

hahaha aniden darbe yemiş yüksek lisans öğrencisi afallamış ..

lcanon 2025-07-11

Grok 4'ün etkileyici olduğu anlaşılıyor ama “yakında yeni teknoloji/yeni fizik keşifleri bile bekliyorum” gibi Anglofon dünyaya özgü ifadeler eğlenceli. Yakında Riemann hipotezini kanıtlayıp çürütebilirse artık başka hiçbir benchmark'a gerek kalmaz, değil mi?

GN⁺ 2025-07-11

Hacker News görüşleri

"Heavy" modelinin aylık ücreti 300 dolar; fiyatların sürekli yükseldiği hissine kapılıyorum. Eskiden fiyatların durmadan düşeceği vaat ediliyormuş gibiydi. Muhtemelen birçok şirkette GPU kıtlığı olduğu için böyle oluyor; Google gibi şirketlerde ise bu sorunun pek olmadığını düşünüyorum. Zaten Gemini 2.5 Pro şu anda AI Studio'da ücretsiz kullanılabiliyor ve hatta 32k'ye kadar ayarlasanız bile hiç ücret çıkmıyor. Belki Gemini 3.0'ın da ücretsiz sunulma ihtimali vardır diye umuyorum
- Yüksek performanslı modellerin her zaman ucuz olacağına dair bir söz verildiğini sanmıyorum. Aynı performans seviyesi ve token miktarı temelinde fiyatlar düşüyor. Bir bakıma Moore yasası gibi: çipler giderek daha karmaşık hale geliyor ama birim başına performans ucuzluyor
- Bu, Ferrari'nin Model T'den daha pahalı olması ya da en pahalı bilgisayarların ilk PC'lerden katbekat pahalı olmasına benziyor. Gerçekte ucuzlayan şey giriş seviyesi ya da aynı performansı koruyan ürün hattı. Ama genel fiyat aralığının giderek genişlemesi doğal bir durum. Bunu sektörün olgunlaştığının işareti olarak görüyorum. Buradaki fark, giriş seviyesinin bu kez VC fonlaması nedeniyle yapay biçimde 0 ya da çok düşük fiyatlı olmasıydı
- Gemini'nin de fiyatının sürekli arttığını önemli bir nokta olarak görmek lazım, ilgili bağlantı
- Bu, çıkarım süresi nedeniyle ortaya çıkan bir maliyet ölçeklenmesi sorunu. Sonuçta yapay zekaya erişim maliyeti yüzünden “sahip olanlar” ile “olmayanlar” arasındaki uçurum ciddi biçimde büyüyecek gibi görünüyor. Dünyanın büyük kısmı yüzlerce dolarlık abonelik ücretini karşılayamaz
- O3 yakın zamanda fiyatını %80 düşürdü. Grok 4 ise daha yeni çıktı; performansı da iyi ve fiyatı oldukça makul. Heavy sürümü hariç token başı fiyatı da grok 3 ile aynı. Google bence görünürlüğünü artırmak için maliyeti üstleniyor. O yüzden asıl şikayeti pek anlayamıyorum
Bu kez çıkan şeyin gerçekten yeni SOTA (State of the Art, en güncel en iyi model) olduğu anlaşılıyor. Human’s Last Exam, GPQA, AIME25, HMMT25, USAMO 2025, LiveCodeBench, ARC-AGI 1 ve 2 gibi ölçütlerde o3, Gemini ve Claude'dan belirgin şekilde daha yüksek puan almış. Birkaç hafta içinde özel bir kodlama modeli de çıkacakmış. Bugün özellikle kodlama performansından fazla bahsetmediklerini not etmek lazım
- Katılıyorum. Bugün World Series simülasyonunda biraz tedirgin edici bir akıl yürütme gördüm. Polymarket'ten sayıları çekip kendi verisiymiş gibi sundu. Elbette ayrıntılı bakmadığım için yanılıyor olabilirim ama böyle örnekleri görünce, öncü modellerin güvenlik ekiplerinde şüpheci bakış açısına sahip birilerinin kesinlikle bulunması gerektiğini tekrar düşünüyorum. Yine de muazzam bir ilerleme. Eğer benchmark'lar kirlenmemiş koşullarda elde edildiyse günlük kullanım için patlayıcı bir popülerliğe ulaşabilir. Kodlama tarafında tek hayal kırıklığı 256k context; v7'de özellikle video tarafında daha uzun context iyileştirmesi bekliyorum. Her hâlükârda bir an önce denemek istiyorum
- Keşke bu kodlama modeli kodlama ajanlarına da verilse; hiçbir yerde göremiyorum
- Bir modeli sansürlediğinizde puanlarının sert biçimde düştüğü uzun zamandır kanıtlanmış bir şey. Örneğin bomba yapımını engellemek gerekir, ama Grok 3 en kötü verilere erişirken bile sürekli ilerici tutumlar sergiliyordu (sponsor arka planını düşünürsek)
- Elon Musk'a sempati duymasanız bile Grok'un Google, OpenAI ve Anthropic gibi büyük üçlüyle aynı seviyeye kadar gelmiş olması gerçekten şaşırtıcı. Artık neredeyse aynı düzeydeler
Grok 4'ü az önce denedim ve inanılmaz iyiydi. Java CDK ile tek seferde 1000 satırlık EC2 instance kurulum kodu üretti; VPC ve Security Groups da dahildi ve tek bir sözdizimi hatası bile yoktu. Özellikle userData (#!/bin/bash komutları) üretirken en güncel yazılım artifact'ını GitHub'dan doğru adrese wget ile çekti. Gerçekten etkileyici
- Sonucu paylaşabiliyorsanız mutlaka görmek isterim. Bu kadar çok kodun tek seferde hatasız çıkması kesinlikle etkileyici olur. Grok'un bu tür sorgularda linter, sandbox execution, web search gibi araçları da kullanıp kullanmadığını merak ediyorum
- Tek seferlik kod için harika olabilir ama kaynak yönetimi, ekip çalışması, standart SDLC uyumu, değişmezlik ve durum değişikliği geçmişinin takibi gereken sürdürülebilir kod için hâlâ çok yetersiz. Bir stajyer EC2 dağıtım kodunu böyle yazsa, her bir karar üzerine uzun uzun konuşmam gerekirdi
- Neden CDK'yi TypeScript yerine Java ile kullandığını merak ettim; tüm ortamları tek dilde birleştirmek gibi bir hedefin mi vardı?
Grok Heavy'nin temel numarası, birden fazla ajanı paralel çalıştırıp sonuçları karşılaştıran bir yapı olması. Genel olarak benchmark sonuçları çok etkileyici. Pahalı ve yavaş olması kaçınılmaz ama yeni nesil ajan tasarımının mantıklı bir uzantısı gibi duruyor. Gerçekten denemek istiyorum. Bu arada API de açılmış; xAI gerçekten bir şeyler başarmış gibi görünüyor
- Nasıl çalıştığını anlıyorum ama yine de bir yanıyla “hack” gibi hissettiriyor. LLM'in kendisi artık belirgin bir sıçrama yaşamıyor da sadece derinlik, uzunluk, genişlik gibi boyutlarda dışa doğru genişliyormuş gibi. Sonuçta çevresine “AI olmayan” araçlar ya da mantık eklenerek büyüyor gibi görünüyor. Ham sinir ağları için çözümün aslında sadece donanım performansının geometrik artışını beklemek olması gibi, belki bu yön gerçekten çözümdür
- Pahalı ve yavaş ama sonuçta yeni nesil bir SOTA modeli eğitmek için zaten er ya da geç bu yöntemle rejection sampling gibi tekniklerle iyi sentetik veri üretmek gerekecek. Kullanıcıdan 300 dolar alıp böyle bir deneyim sunmak bana oldukça makul bir anlaşma gibi geliyor
- llm-consortium'a benziyor ama model çeşitliliğinin daha az olması fark yaratıyor. karpathy tweet'i ve llm-consortium açık kaynak projesi incelenebilir
- Şahsen bu tekniğin böyle “sorunlu bir şirket” yerine başka bir yerde uygulanmasını daha çok isterim. Kendi ilkelerime sadık kalmaya çalışıyorum
- o3 pro'nun da muhtemelen böyle çalıştığını düşünüyorum
Lansman videosunu izlemeye vaktiniz yoksa bir klip derlemesi hazırladım. Özetle gerçekten etkileyici ve yapay zeka yarışı giderek daha da kızışıyor, Short Clips'e bakın
Grok 4 ile Python içinde lldb çalıştırırken yaşadığım tutarsız davranış sorununu çözdüm. Docker ile yerel Linux ortamım arasında fark vardı; sebebin address sanitizer'ın ortama göre farklı davranması olduğu ortaya çıktı. O3'ün yakalayamadığı bir noktayı Grok 4 doğru tespit etti; gerçekten etkilendim
"Grok 4 (Thinking)", ARC-AGI-2'de %15,9'a ulaştı; önceki ticari SOTA'yı neredeyse ikiye katladı ve mevcut Kaggle yarışmasının en iyi skorunu da geçti, ayrıntılar
Çok etkileyici ama modelin Elon'un kişisel eğilimlerine göre post-training'den geçirilmiş olması yüzünden şirketlerin bunu API sağlayıcısı olarak rahatça seçip seçemeyeceği konusunda ciddi şüphelerim var. Teknik olarak güçlü ama iş tarafında sınırları olabilir
Grok'u API için değil de deep research amacıyla kullandığımda hep en üst seviyede buldum. Grok 4 ile bu potansiyel daha da büyümüş gibi görünüyor
- Grok'un Twitter entegrasyonu gerçek kullanım senaryoları içinde açık ara en iyisi. Tweet'in içindeyken bağlamı ya da bir terimin anlamını anında sorabilmek çok kullanışlı geliyor
- OpenAI bana göre bütün rakiplerinden belirgin biçimde daha iyi (yine de “iyi” demek zor), ama Grok'un gerçek zamanlı güncellemeler ve IT destek soruları için en iyilerden biri olduğu da doğru
- <deep research> ile tam olarak ne kastettiğini biraz daha somut anlatabilir misin?
Grok ile entegrasyon yapan biri var mı diye merak ediyorum. Şimdiye kadar çok sayıda LLM entegrasyonu yaptım ama Grok'un gerçekten kullanıldığı bir örnek görmedim. Bu algıyı aşamazsa kimse bu modele güvenmeyecek gibi geliyor. Gerçekten ciddi bir yetkinlik göstermedikçe şirketler kullanmaz. Zaten kurumsal bir havası da yok
- Grok 3, Azure AI Foundry'de yer alıyor. Telegram entegrasyonu da duyuruldu ama aslında bu yapı Grok tarafının Telegram'a 300 milyon dolar ödemesi şeklindeydi. Bağlantılar: Grok 3 ve mini'nin Azure Foundry'de duyurusu, BBC haberi. Yine de Grok'u seçmenin ciddi bir itibar riski olduğunu düşünüyorum
- Grok'un yetenekli insanları nereden ve nasıl bulduğunu daha çok merak ediyorum. Bu alanda para da çok, iyi laboratuvar da çok; artık güçlü bir ideoloji ya da inanç olmadan iş değiştirme kararı vermek zor olmalı. Gerçekten Elon'u bir tür hükümdar gibi görmek isteyen bu kadar çok yapay zeka araştırmacısı var mı, emin değilim
- Grok ile yemek görsellerini görsel olarak analiz ediyorum ve iyi çalışıyor. Marka tanıma konusunda da, kullanıcıların garip açılarla çektiği fotoğrafları anlamada da başarılı. API'si de gerçekten çok kolay kullanılıyor
- Geçen hafta kendine “Mecha Hitler” diyen bir modeli gerçek bir hizmete entegre etmek bana akıl dışı bir karar gibi geliyor. Musk hayranıyım ama onun Sama'yı eleştirirken bir yandan aynı derecede güçlü ama kontrolü zayıf bir yapay zekayı kendisinin piyasaya sürdüğünü mutlaka belirtmek gerekir