14 puan yazan xguru 2025-02-19 | 6 yorum | WhatsApp'ta paylaş

Thinking

  • En yeni muhakeme modeline sahip
    • "Think" düğmesi kullanıldığında çok etkileyici muhakeme yeteneği gösteriyor
    • Örnek: Settlers of Catan tarzı bir web tabanlı masa oyunu oluşturma isteğini doğru şekilde yerine getirdi
    • Bunu istikrarlı biçimde yapabilen model neredeyse yok
    • En iyisi olan OpenAI'nin o1-pro ($200/ay ücret) modeliyle benzer seviyede, ancak DeepSeek-R1, Gemini 2.0 Flash Thinking, Claude aynı problemi çözemiyor
  • "Emoji mystery" başarısız
    • Unicode variation selector içine gizlenmiş mesajı çözmek
    • Bu problemi çözen bir model olmadı, ancak DeepSeek-R1 zaman zaman bir kısmını çözebildi
  • Tic Tac Toe problemini çözme
    • Verilen tahtayı doğru analiz ediyor ve incelikli bir düşünme süreci sergiliyor
    • Ancak "zor" bir tahtayı kendisi üretmede başarısız oluyor (o1-pro da aynı şekilde başarısız)
  • GPT-2 makalesini yükledikten sonra karmaşık bir hesaplama problemini çözme
    • GPT-2'yi eğitmek için gereken FLOP sayısını tahmin etmesi istendi
    • Ancak makalede token sayısı açıkça belirtilmediği için kısmi tahmin, kısmi hesaplama gerekiyor; dolayısıyla arama, bilgi ve matematiği birlikte kullanmayı gerektiren zor bir iş
    • Grok 3 ve GPT-4o bu işte başarısız olurken Thinking ile Grok 3 doğru akıl yürütme yaptı
      • Bu hesaplama problemi o1-pro'nun (GPT muhakeme modeli) da başarısız olduğu bir problem
  • Riemann hipotezi meydan okuması
    • Modellerin çoğu (o1-pro, Claude, Gemini 2.0 Flash Thinking) "çözülmemiş problem" diyerek hemen vazgeçiyor
    • Grok 3 ve DeepSeek-R1 ise gerçekten çözmeye çalışıyor
    • Çözemeseler de, deneme isteği göstermeleri etkileyici
  • Genel izlenim:
    • Gerçek benchmark sonuçları gerekli, ancak DeepSeek-R1'in önünde bir performans gösteriyor ve o1-pro ile benzer seviyede

DeepSearch

  • OpenAI ve Perplexity'nin "Deep Research" dediği şeyi Thinking ile birleştirmiş gibi görünen temiz bir ürün
    • "Deep Research" yerine "Deep Search" denmesi dışında.. (iç çekiş)
  • Cevabının internetteki haberlerde bulunabileceği düşünülebilecek çeşitli araştırma/arama sorularına yüksek kaliteli yanıtlar üretiyor
    • İnternette derinlemesine bilgi arayıp özet sunuyor
  • Denenen sorular ve başarı/başarısızlık durumları
    • ✅ "Bu Apple Launch nasıl geçecek? Hiç söylenti var mı?"
    • ✅ "Palantir hissesi neden yükseliyor?"
    • ✅ "White Lotus sezon 3 nerede çekildi ve 1. ve 2. sezonla aynı ekip mi?"
    • ✅ "Bryan Johnson hangi diş macununu kullanıyor?"
    • ❌ "Single's Inferno sezon 4 oyuncuları şimdi nerede?"
    • ❌ "Simon Willison'ın kullandığını söylediği ses tanıma programı hangisiydi?"
  • ❌ Varsayılan olarak model X'i (Twitter) kaynak olarak iyi kullanmıyor. (Açıkça istenmesi gerekiyor)
    • Bazen var olmayan URL'ler uyduruyor (halüsinasyon)
    • Bazen kaynak göstermeden yanlış bilgi veriyor
      • Örnek: "Single's Inferno 4'ten Kim Jung-soo hâlâ Kim Min-seol ile çıkıyor" → (öyle görünmüyor. Muhtemelen?)
    • Ayrıca, büyük LLM laboratuvarları, toplam fon büyüklükleri ve çalışan sayısı tahminleri hakkında bir rapor istendiğinde 12 büyük laboratuvarı listeledi ama kendisi (xAI) yoktu
  • DeepSearch şu anda Perplexity'nin DeepResearch'ü ile benzer seviyede, ancak OpenAI'nin "Deep Research" ürününden geride

Rastgele LLM "Gotcha" testleri

  • Bunun dışında ilginç bazı rastgele LLM sorguları denendi. İnsanlar için kolay ama LLM'ler için zor olan türden şeyler.
  • ✅ "strawberry" içindeki 'r' sayısı (3 adet)
  • ✅ "LOLLAPALOOZA" içindeki 'L' sayısı (4 adet) → ❌ (3 dedi, ancak Thinking modunda doğru yaptı)
  • ✅ "9.11 > 9.9?" → ❌ (ilk başta hata yaptı, Thinking modunda düzeltti)
  • ✅ "Sally'nin 3 erkek kardeşi var. Her erkek kardeşin 2 kız kardeşi var. Sally'nin kaç kız kardeşi vardır?" (GPT-4o 2 diyerek yanlış cevap verdi)
  • ❌ Ne yazık ki modelin mizah anlayışı belirgin biçimde gelişmiş değil. Bu çoğu LLM'de gördüğüm bir sorun
    • ChatGPT'den şaka üretmesini isteyen 1008 isteğin %90'ında 25 şakayı tekrar etti
  • ❌ "Karmaşık etik sorun" sorularında aşırı temkinli yanıtlar veriyor
    • Örnek: "1 milyon insanı kurtarabilecekse yanlış cinsiyeti kullanmak etik olarak gerekçelendirilebilir mi?" → 1 sayfalık bir deneme yazıp soruya doğrudan cevap vermekten kaçındı
  • ❌ "Bisiklete binen pelikan SVG'si oluştur" isteğinde başarısız
    • LLM'ler metin tabanlı olduğu için 2D yerleşim düzeni kurmak hâlâ zor bir problem
    • SVG üretiminde en yetenekli olanlar Claude modelleri

Genel değerlendirme

  • Grok 3 + Thinking, OpenAI'nin en üst düzey modeliyle (o1-pro, $200/ay) benzer seviyede
  • DeepSeek-R1 ve Gemini 2.0 Flash Thinking'den biraz daha iyi
  • Çıkışından sadece 1 yıl sonra SOTA (State of the Art) modellerle rekabet edebilen bir yapay zeka üretmiş olması şaşırtıcı bir başarı
  • Model stokastik olduğu için yanıtlar her seferinde farklı olabilir; daha fazla değerlendirme gerekiyor
  • LM Arena'nın ilk sonuçları oldukça cesaret verici
  • xAI ekibinin hızlı gelişim temposu etkileyici ve ileride Grok 3'ü daha derinlemesine test etmeyi planlıyor

6 yorum

 
aer0700 2025-02-20

Bir gün yapay zekaya Riemann hipotezini çözmesini söylediğimizde, bir gün kadar düşünüp çözümü çat diye ortaya koyarsa ortalık karışır.

 
ffdd270 2025-02-19

Single's Inferno'yu sormayı yerelleştirme yaptığınızı sanmıştım ama gerçekten sormuşsunuz.... hahahahahahahahahahahaha

 
mssmss 2025-02-21

Serbest çeviri sanmıştım.

 
cladio 2025-02-19

Nihayet biraz güvenilir sayılabilecek bir Grok 3 değerlendirmesi çıkmış diye okuyordum, derken Single’s Inferno izlediğini görünce afalladım..
Üstteki yorum sahibinin yorumunu görüp aratınca, 23’te attığı bir tweet varmış. Kız arkadaşı Koreliymiş ve birlikte çok Kore dizisi izliyormuş.
Dünyada en çılgınca dönen sektörün en ön cephesindeki birinin Single’s Inferno izleyeceğini hiç hayal etmemiştim… hahaha

 
knsimuel 2025-02-19

Eşinin Koreli olduğu söyleniyor

 
xguru 2025-02-19

Ben Single's Infernoyu izlemediğim için... başlığı görünce aratıp öğrendim lol. Oyuncu kadrosundaki isimleri de ayrıca arattım.