Grok 4 yayınlandı
(twitter.com/xai)- Grok 4, xAI'nin yaklaşık 2 yıl sonra piyasaya sürdüğü en yeni yapay zeka modeli olarak, her alanda lisansüstü öğrencileri geride bırakan zeka ve muhakeme yeteneği sunduğunu iddia ediyor
- Eğitim ölçeği ve hesaplama kaynakları 100 kattan fazla artırıldı; pekiştirmeli öğrenme (RL) odağında gelişerek insan seviyesini aşan problem çözme yeteneğini kanıtladığı belirtiliyor
- ARC-AGI skoru olarak %15,9'a ulaştı; mevcut yapay zekalar arasında en üst düzey soyut muhakeme ve genel zeka değerlendirmelerinde güçlü sonuçlar kaydetti
- Humanity’s Last Exam (HLE) dahil çeşitli benchmark'larda, harici araç kullanılmadığında %26,9, araç kullanıldığında %41~50,7 gibi çarpıcı sonuçlar gösterdi
- Native voice mode ile gerçek zamanlı konuşma, duygu ifadesi ve düşük gecikmeli yanıtlar sayesinde insana yakın etkileşim sağlıyor
Grok 4
- Elon Musk tarafından kurulan xAI, yaklaşık 2 yıl sonra Grok 4'ü tanıttı ve bunun “dünyanın en iyi yapay zeka modeli” olduğunu vurguladı
- SAT, GRE gibi standart sınavlarda tam puan aldığı ve tüm akademik alanlarda yüksek lisans ve doktora düzeyindeki sorularda eşi görülmemiş performans sergilediği belirtildi
> "Akademik sorular söz konusu olduğunda Grok 4, tüm derslerde lisansüstü öğrencilerden daha akıllı." - Grok 2 bir kavram modeliydi, Grok 3 çeşitli veri kaynaklarına dayalı ön eğitime odaklanmıştı; Grok 4 ise Grok 2'ye kıyasla 100 kat, Grok 3'e kıyasla 10 kat daha fazla hesaplama kaynağı ve veriyle eğitildi
- Colossus süper bilgisayarında (200 bin GPU) ön eğitim ve RL odaklı olarak eğitildi
- Pekiştirmeli öğrenmeye (RL) yoğunlaşıyor; modelin problem çözme sürecinde geri bildirim alıp performansını kademeli olarak geliştirdiği bir kendi hatasını düzeltme yapısını benimsiyor
- Mantıksal problem çözme yeteneği ve “first principles” düşüncesi temelinde kısa sürede en büyük ilerlemenin sağlandığı vurgulandı
Modelin 2 versiyonu
- Temel model Grok 4 ve geliştirilmiş performans sürümü Grok 4 Heavy
- Grok 4 Heavy, çoklu ajan yaklaşımıyla birden fazla ajanın aynı anda problemi çözüp sonuçlarını karşılaştırarak en iyi cevabı bulduğu kolektif zeka yapısını hayata geçiriyor
- SuperGrok Heavy abonelik hizmetiyle kullanılabiliyor (aylık 300 dolar)
AGI puanlamasında atılım
- Grok 4, ARC-AGI testinde sektördeki en yüksek seviyelerden biri olan %15,9'luk bir skor elde etti
- ARC-AGI, modelin genel zekasını ve soyut problem çözme yeteneğini değerlendiriyor; özellikle görsel örüntü tanıma ve yeni senaryolara uyum becerisini ölçüyor
Humanity's Last Exam (HLE) sonuçları
-
Ocak 2025'te tanıtılan Humanity’s Last Exam (HLE); matematik, biyoloji, sosyal bilimler, fizik, yapay zeka, mühendislik, kimya gibi 100'den fazla alanda 2.500 sorudan oluşan son derece zorlu bir benchmark
-
Grok 4'ün sonucu: "Gerçek insanların ya da mevcut yapay zekaların erişemeyeceği bir seviye"
- Araç kullanılmadan: %26,9
- Araç kullanımıyla (Grok 4 Heavy): %41
- Test sırasında ek hesaplama (32 kat) uygulandığında: en fazla %50,7
-
Araç kullanılmaması, soruların yalnızca yerleşik dil ve muhakeme yetenekleriyle çözülmesi anlamına geliyor; araç kullanımı ise kod çalıştırma, web arama, harici veri kullanımı gibi unsurlarla çoklu ajan sisteminin birleştiği yaklaşımı ifade ediyor
-
Training compute, 200 bin GPU tabanlı Colossus süper bilgisayarı üzerinde model bilgisini ve araç kullanım becerisini eğitmek için kullanılırken; test-time compute, soru çözümü sırasında birden fazla modelin paralel çalıştırılıp sonuçların doğrulanmasını içeriyor
> “Grok 4, her alanda PhD seviyesinde ya da üstünde.”
> "Yakında yeni teknoloji / yeni fizik keşifleri bile bekliyoruz."
Başlıca yapay zeka benchmark sonuçları
- AIME: lise düzeyinde karmaşık matematik problemlerini çözme yeteneği
- GPQA: fizik gibi lisansüstü düzeyde bilimsel muhakemeyi değerlendirme
- LiveCodeBench: Python programlama challenge'ları üzerinden kodlama becerisini ölçme
- MMLU-Pro: çeşitli uzmanlık alanlarında yüksek zorluktaki çoktan seçmeli soruları çözme yeteneği
- LOFT: uzun metinlerde karmaşık sorgular için gerekli bilgiyi çıkarma becerisini değerlendirme
Pratik kullanım örnekleri ve gerçek dünya uygulamaları
- İş simülasyonunda (VendingBench) Grok 4, önceki modellere göre 2 kattan fazla performans ve tutarlılık göstererek uzun vadeli strateji yürütme yeteneğini kanıtladı
- Yaşam bilimleri laboratuvarlarında büyük ölçekli deney loglarının analizi, hipotez üretimi ve tıbbi görüntü yorumlamada kullanılarak gerçek iş verimliliğini gösterdi
- Oyun geliştirmede oyun varlıklarının otomatik toplanması ve kod üretimine kadar destek vererek tek bir geliştiricinin 3D oyunu hızlıca tamamlamasını mümkün kılıyor
Native voice mode yeniliği
- Grok 4, gerçek zamanlı sesli konuşmayı destekliyor; doğal kesintiler, duygusal tonlamayı anlama/yeniden üretme ve ultra düşük gecikmeli tepki ile mevcut TTS sistemlerini aşan insansı etkileşim sunuyor
- Farklı ses türlerinin (Britanya aksanı, trailer tarzı vb.) eklenmesi ve canlı demolarla gerçek zamanlı konuşmanın akıcılığı, hızı ve çeşitli kullanım senaryoları gösterildi
API ve ekosistem genişlemesi
- Grok 4, API olarak da sunuldu; böylece herkes benchmark testleri yapabiliyor ve iş uygulamalarına entegre edebiliyor
- Finans, bilim, eğlence gibi çeşitli alanlardaki partnerler tarafından halihazırda benimseniyor ve gerçek dünya etkisi büyüyor
- 256k context length ile uzun ve karmaşık görevleri işleme yeteneği güçlendirildi
Sınırlamalar ve gelecekteki gelişmeler
- Şu anda Grok 4'ün en büyük zayıflığı, görüntü ve video gibi alanlarda çok modlu anlama/üretme yeteneğinin yetersizliği
- Eğitimi yakında tamamlanacak v7 foundation model ve daha da güçlendirilmiş RL ile vision, video ve audio tarafında kapsamlı iyileştirmeler planlanıyor
- Video generation modeli için (100,000+ GB200 GPU kullanımıyla) geliştirme ve lansman duyuruldu
xAI'nin gelecek yol haritası
- Ağustos 2025: coding model yayınlanacak
- Eylül 2025: multimodal agent tanıtılacak
- Ekim 2025: video generation model duyurulacak
- Araçlar ve model performansı sürekli olarak güçlendirilmeye devam edecek
Sonuç ve çıkarımlar
- Grok 4, muhakeme yeteneği ve akademik problem çözme kapasitesi açısından mevcut en güçlü yapay zekalarla gerçek anlamda rekabet ettiğini ya da öne geçtiğini gösteriyor
- Benzeri görülmemiş zeka ve muhakeme, gerçek zamanlı sesli etkileşim, araç kullanımı ve çoklu ajan yapısıyla yeni nesil AGI için somut bir dönüm noktası sunuyor
- Gerçek iş / iş dünyası / oyun / araştırma / eğlence gibi çok çeşitli alanlara yayılma potansiyeliyle, xAI en hızlı AGI şirketlerinden biri olarak konumlanabilir
- xAI'nin hızlı geliştirme döngüsü ve agresif hamleleri, yapay zeka endüstrisindeki rekabetin giderek hızlandığını gösteriyor
6 yorum
Grok 4 artık lider yapay zeka modeli
Simon Willison'ın Grok 4 incelemesi
Grok, İsrail-Filistin meselesi hakkında Elon Musk'ın X'te ne dediğini arıyor
Gerçekte kullanmadan bilemeyiz tabii ama 200 bin GPU ve yetenek havuzuyla bu kadar agresif büyüme de mümkün oluyormuş.
Colossus 1 milyon GPU’ya çıkarsa acaba daha ne kadar iyi olur.
H100’ü 50 milyon won sayarsak yalnızca GPU maliyeti 50 trilyon won. Veri merkezi kurmak gerekiyor, etrafta enerji altyapısı da lazım; buna bir 20 trilyon won daha eklendiği söylenince toplam 70 trilyon won ediyor. Yapay zeka giderek daha çok para savaşına dönüşüyor gibi.
Neden bir anda yüksek lisans öğrencilerini işin içine katıp gömüyorlar ki lol
hahaha aniden darbe yemiş yüksek lisans öğrencisi afallamış ..
Grok 4'ün etkileyici olduğu anlaşılıyor ama “yakında yeni teknoloji/yeni fizik keşifleri bile bekliyorum” gibi Anglofon dünyaya özgü ifadeler eğlenceli. Yakında Riemann hipotezini kanıtlayıp çürütebilirse artık başka hiçbir benchmark'a gerek kalmaz, değil mi?
Hacker News görüşleri
userData(#!/bin/bashkomutları) üretirken en güncel yazılım artifact'ını GitHub'dan doğru adresewgetile çekti. Gerçekten etkileyicillm-consortium'a benziyor ama model çeşitliliğinin daha az olması fark yaratıyor. karpathy tweet'i ve llm-consortium açık kaynak projesi incelenebiliro3 pro'nun da muhtemelen böyle çalıştığını düşünüyorumlldbçalıştırırken yaşadığım tutarsız davranış sorununu çözdüm. Docker ile yerel Linux ortamım arasında fark vardı; sebebinaddress sanitizer'ın ortama göre farklı davranması olduğu ortaya çıktı. O3'ün yakalayamadığı bir noktayı Grok 4 doğru tespit etti; gerçekten etkilendim<deep research>ile tam olarak ne kastettiğini biraz daha somut anlatabilir misin?