Andrej Karpathy'nin Grok 3 erken erişim incelemesi

xguru · 2025-02-19T10:14:21+09:00

Thinking ✅ En yeni muhakeme modeline sahip "Think" düğmesi kullanıldığında çok etkileyici muhakeme yeteneği gösteriyor Örnek: Settlers of Catan tarzı bir web tabanlı masa oyunu oluşturma isteğini doğru şekilde yerine getirdi Bunu istikrarlı biçimde yapabilen model neredeyse yok En iyisi olan OpenAI'nin o1-pro ($200/ay ücret) modeliyle benzer seviyede, ancak DeepSeek-R1, Gemini 2.0 Flash Thinking, Claude aynı problemi çözemiyor ❌ "Emoji mystery" başarısız Unicode variation selector içine gizlenmiş mesajı çözmek Bu problemi çözen bir model olmadı, ancak DeepSeek-R1 zaman zaman bir kısmını çözebildi ❓ Tic Tac Toe problemini çözme Verilen tahtayı doğru analiz ediyor ve incelikli bir düşünme süreci sergiliyor Ancak "zor" bir tahtayı kendisi üretmede başarısız oluyor (o1-pro da aynı şekilde başarısız) ✅ GPT-2 makalesini yükledikten sonra karmaşık bir hesaplama problemini çözme GPT-2'yi eğitmek için gereken FLOP sayısını tahmin etmesi istendi Ancak makalede token sayısı açıkça belirtilmediği için kısmi tahmin, kısmi hesaplama gerekiyor; dolayısıyla arama, bilgi ve matematiği birlikte kullanmayı gerektiren zor bir iş Grok 3 ve GPT-4o bu işte başarısız olurken Thinking ile Grok 3 doğru akıl yürütme yaptı Bu hesaplama problemi o1-pro'nun (GPT muhakeme modeli) da başarısız olduğu bir problem Riemann hipotezi meydan okuması Modellerin çoğu (o1-pro, Claude, Gemini 2.0 Flash Thinking) "çözülmemiş problem" diyerek hemen vazgeçiyor Grok 3 ve DeepSeek-R1 ise gerçekten çözmeye çalışıyor Çözemeseler de, deneme isteği göstermeleri etkileyici Genel izlenim: Gerçek benchmark sonuçları gerekli, ancak DeepSeek-R1'in önünde bir performans gösteriyor ve o1-pro ile benzer seviyede DeepSearch OpenAI ve Perplexity'nin "Deep Research" dediği şeyi Thinking ile birleştirmiş gibi görünen temiz bir ürün "Deep Research" yerine "Deep Search" denmesi dışında.. (iç çekiş) Cevabının internetteki haberlerde bulunabileceği düşünülebilecek çeşitli araştırma/arama sorularına yüksek kaliteli yanıtlar üretiyor İnternette derinlemesine bilgi arayıp özet sunuyor Denenen sorular ve başarı/başarısızlık durumları ✅ "Bu Apple Launch nasıl geçecek? Hiç söylenti var mı?" ✅ "Palantir hissesi neden yükseliyor?" ✅ "White Lotus sezon 3 nerede çekildi ve 1. ve 2. sezonla aynı ekip mi?" ✅ "Bryan Johnson hangi diş macununu kullanıyor?" ❌ "Single's Inferno sezon 4 oyuncuları şimdi nerede?" ❌ "Simon Willison'ın kullandığını söylediği ses tanıma programı hangisiydi?" ❌ Varsayılan olarak model X'i (Twitter) kaynak olarak iyi kullanmıyor. (Açıkça istenmesi gerekiyor) Bazen var olmayan URL'ler uyduruyor (halüsinasyon) Bazen kaynak göstermeden yanlış bilgi veriyor Örnek: "Single's Inferno 4'ten Kim Jung-soo hâlâ Kim Min-seol ile çıkıyor" → (öyle görünmüyor. Muhtemelen?) Ayrıca, büyük LLM laboratuvarları, toplam fon büyüklükleri ve çalışan sayısı tahminleri hakkında bir rapor istendiğinde 12 büyük laboratuvarı listeledi ama kendisi (xAI) yoktu DeepSearch şu anda Perplexity'nin DeepResearch'ü ile benzer seviyede, ancak OpenAI'nin "Deep Research" ürününden geride Rastgele LLM "Gotcha" testleri Bunun dışında ilginç bazı rastgele LLM sorguları denendi. İnsanlar için kolay ama LLM'ler için zor olan türden şeyler. ✅ "strawberry" içindeki 'r' sayısı (3 adet) ✅ "LOLLAPALOOZA" içindeki 'L' sayısı (4 adet) → ❌ (3 dedi, ancak Thinking modunda doğru yaptı) ✅ "9.11 > 9.9?" → ❌ (ilk başta hata yaptı, Thinking modunda düzeltti) ✅ "Sally'nin 3 erkek kardeşi var. Her erkek kardeşin 2 kız kardeşi var. Sally'nin kaç kız kardeşi vardır?" (GPT-4o 2 diyerek yanlış cevap verdi) ❌ Ne yazık ki modelin mizah anlayışı belirgin biçimde gelişmiş değil. Bu çoğu LLM'de gördüğüm bir sorun ChatGPT'den şaka üretmesini isteyen 1008 isteğin %90'ında 25 şakayı tekrar etti ❌ "Karmaşık etik sorun" sorularında aşırı temkinli yanıtlar veriyor Örnek: "1 milyon insanı kurtarabilecekse yanlış cinsiyeti kullanmak etik olarak gerekçelendirilebilir mi?" → 1 sayfalık bir deneme yazıp soruya doğrudan cevap vermekten kaçındı ❌ "Bisiklete binen pelikan SVG'si oluştur" isteğinde başarısız LLM'ler metin tabanlı olduğu için 2D yerleşim düzeni kurmak hâlâ zor bir problem SVG üretiminde en yetenekli olanlar Claude modelleri Genel değerlendirme Grok 3 + Thinking, OpenAI'nin en üst düzey modeliyle (o1-pro, $200/ay) benzer seviyede DeepSeek-R1 ve Gemini 2.0 Flash Thinking'den biraz daha iyi Çıkışından sadece 1 yıl sonra SOTA (State of the Art) modellerle rekabet edebilen bir yapay zeka üretmiş olması şaşırtıcı bir başarı Model stokastik olduğu için yanıtlar her seferinde farklı olabilir; daha fazla değerlendirme gerekiyor LM Arena'nın ilk sonuçları oldukça cesaret verici xAI ekibinin hızlı gelişim temposu etkileyici ve ileride Grok 3'ü daha derinlemesine test etmeyi planlıyor

(x.com)

14 puan yazan xguru 2025-02-19 | 6 yorum | WhatsApp'ta paylaş

Thinking

✅ En yeni muhakeme modeline sahip
- "Think" düğmesi kullanıldığında çok etkileyici muhakeme yeteneği gösteriyor
- Örnek: Settlers of Catan tarzı bir web tabanlı masa oyunu oluşturma isteğini doğru şekilde yerine getirdi
- Bunu istikrarlı biçimde yapabilen model neredeyse yok
- En iyisi olan OpenAI'nin o1-pro ($200/ay ücret) modeliyle benzer seviyede, ancak DeepSeek-R1, Gemini 2.0 Flash Thinking, Claude aynı problemi çözemiyor
❌ "Emoji mystery" başarısız
- Unicode variation selector içine gizlenmiş mesajı çözmek
- Bu problemi çözen bir model olmadı, ancak DeepSeek-R1 zaman zaman bir kısmını çözebildi
❓ Tic Tac Toe problemini çözme
- Verilen tahtayı doğru analiz ediyor ve incelikli bir düşünme süreci sergiliyor
- Ancak "zor" bir tahtayı kendisi üretmede başarısız oluyor (o1-pro da aynı şekilde başarısız)
✅ GPT-2 makalesini yükledikten sonra karmaşık bir hesaplama problemini çözme
- GPT-2'yi eğitmek için gereken FLOP sayısını tahmin etmesi istendi
- Ancak makalede token sayısı açıkça belirtilmediği için kısmi tahmin, kısmi hesaplama gerekiyor; dolayısıyla arama, bilgi ve matematiği birlikte kullanmayı gerektiren zor bir iş
- Grok 3 ve GPT-4o bu işte başarısız olurken Thinking ile Grok 3 doğru akıl yürütme yaptı
  - Bu hesaplama problemi o1-pro'nun (GPT muhakeme modeli) da başarısız olduğu bir problem
Reklam
Riemann hipotezi meydan okuması
- Modellerin çoğu (o1-pro, Claude, Gemini 2.0 Flash Thinking) "çözülmemiş problem" diyerek hemen vazgeçiyor
- Grok 3 ve DeepSeek-R1 ise gerçekten çözmeye çalışıyor
- Çözemeseler de, deneme isteği göstermeleri etkileyici
Genel izlenim:
- Gerçek benchmark sonuçları gerekli, ancak DeepSeek-R1'in önünde bir performans gösteriyor ve o1-pro ile benzer seviyede

DeepSearch

OpenAI ve Perplexity'nin "Deep Research" dediği şeyi Thinking ile birleştirmiş gibi görünen temiz bir ürün
- "Deep Research" yerine "Deep Search" denmesi dışında.. (iç çekiş)
Cevabının internetteki haberlerde bulunabileceği düşünülebilecek çeşitli araştırma/arama sorularına yüksek kaliteli yanıtlar üretiyor
- İnternette derinlemesine bilgi arayıp özet sunuyor
Reklam
Denenen sorular ve başarı/başarısızlık durumları
- ✅ "Bu Apple Launch nasıl geçecek? Hiç söylenti var mı?"
- ✅ "Palantir hissesi neden yükseliyor?"
- ✅ "White Lotus sezon 3 nerede çekildi ve 1. ve 2. sezonla aynı ekip mi?"
- ✅ "Bryan Johnson hangi diş macununu kullanıyor?"
- ❌ "Single's Inferno sezon 4 oyuncuları şimdi nerede?"
- ❌ "Simon Willison'ın kullandığını söylediği ses tanıma programı hangisiydi?"
❌ Varsayılan olarak model X'i (Twitter) kaynak olarak iyi kullanmıyor. (Açıkça istenmesi gerekiyor)
- Bazen var olmayan URL'ler uyduruyor (halüsinasyon)
- Bazen kaynak göstermeden yanlış bilgi veriyor
  - Örnek: "Single's Inferno 4'ten Kim Jung-soo hâlâ Kim Min-seol ile çıkıyor" → (öyle görünmüyor. Muhtemelen?)
- Ayrıca, büyük LLM laboratuvarları, toplam fon büyüklükleri ve çalışan sayısı tahminleri hakkında bir rapor istendiğinde 12 büyük laboratuvarı listeledi ama kendisi (xAI) yoktu
DeepSearch şu anda Perplexity'nin DeepResearch'ü ile benzer seviyede, ancak OpenAI'nin "Deep Research" ürününden geride

Rastgele LLM "Gotcha" testleri

Bunun dışında ilginç bazı rastgele LLM sorguları denendi. İnsanlar için kolay ama LLM'ler için zor olan türden şeyler.
✅ "strawberry" içindeki 'r' sayısı (3 adet)
✅ "LOLLAPALOOZA" içindeki 'L' sayısı (4 adet) → ❌ (3 dedi, ancak Thinking modunda doğru yaptı)
✅ "9.11 > 9.9?" → ❌ (ilk başta hata yaptı, Thinking modunda düzeltti)
✅ "Sally'nin 3 erkek kardeşi var. Her erkek kardeşin 2 kız kardeşi var. Sally'nin kaç kız kardeşi vardır?" (GPT-4o 2 diyerek yanlış cevap verdi)
❌ Ne yazık ki modelin mizah anlayışı belirgin biçimde gelişmiş değil. Bu çoğu LLM'de gördüğüm bir sorun
- ChatGPT'den şaka üretmesini isteyen 1008 isteğin %90'ında 25 şakayı tekrar etti
❌ "Karmaşık etik sorun" sorularında aşırı temkinli yanıtlar veriyor
- Örnek: "1 milyon insanı kurtarabilecekse yanlış cinsiyeti kullanmak etik olarak gerekçelendirilebilir mi?" → 1 sayfalık bir deneme yazıp soruya doğrudan cevap vermekten kaçındı
❌ "Bisiklete binen pelikan SVG'si oluştur" isteğinde başarısız
- LLM'ler metin tabanlı olduğu için 2D yerleşim düzeni kurmak hâlâ zor bir problem
- SVG üretiminde en yetenekli olanlar Claude modelleri

Genel değerlendirme

Grok 3 + Thinking, OpenAI'nin en üst düzey modeliyle (o1-pro, $200/ay) benzer seviyede
DeepSeek-R1 ve Gemini 2.0 Flash Thinking'den biraz daha iyi
Çıkışından sadece 1 yıl sonra SOTA (State of the Art) modellerle rekabet edebilen bir yapay zeka üretmiş olması şaşırtıcı bir başarı
Model stokastik olduğu için yanıtlar her seferinde farklı olabilir; daha fazla değerlendirme gerekiyor
LM Arena'nın ilk sonuçları oldukça cesaret verici
xAI ekibinin hızlı gelişim temposu etkileyici ve ileride Grok 3'ü daha derinlemesine test etmeyi planlıyor

6 yorum

aer0700 2025-02-20

Bir gün yapay zekaya Riemann hipotezini çözmesini söylediğimizde, bir gün kadar düşünüp çözümü çat diye ortaya koyarsa ortalık karışır.

ffdd270 2025-02-19

Single's Inferno'yu sormayı yerelleştirme yaptığınızı sanmıştım ama gerçekten sormuşsunuz.... hahahahahahahahahahahaha

mssmss 2025-02-21

Serbest çeviri sanmıştım.

cladio 2025-02-19

Nihayet biraz güvenilir sayılabilecek bir Grok 3 değerlendirmesi çıkmış diye okuyordum, derken Single’s Inferno izlediğini görünce afalladım..
Üstteki yorum sahibinin yorumunu görüp aratınca, 23’te attığı bir tweet varmış. Kız arkadaşı Koreliymiş ve birlikte çok Kore dizisi izliyormuş.
Dünyada en çılgınca dönen sektörün en ön cephesindeki birinin Single’s Inferno izleyeceğini hiç hayal etmemiştim… hahaha

knsimuel 2025-02-19

Eşinin Koreli olduğu söyleniyor

xguru 2025-02-19

Ben Single's Infernoyu izlemediğim için... başlığı görünce aratıp öğrendim lol. Oyuncu kadrosundaki isimleri de ayrıca arattım.