12 puan yazan xguru 2024-03-05 | 1 yorum | WhatsApp'ta paylaş
  • Yeni nesil Claude 3 model ailesi duyuruldu: Haiku, Sonnet, Opus olmak üzere 3 model
    • Sırasıyla giderek daha güçlü performans sunarak kullanıcıların belirli uygulamalar için zekâ, hız ve maliyet dengesini seçebilmesini sağlıyor
  • Opus, yapay zeka sistemlerine yönelik çoğu değerlendirme benchmark'ında diğer modelleri geride bırakan en zeki model
    • MMLU'da %86,8 ile GPT-4'ü (%86,4) ve Gemini 1.0 Ultra'yı (%83,7) geride bırakıyor
    • HumanEval (Code) 0-Shot'ta %84,9 ile GPT-4'ü (%67) ve Gemini 1.0 Ultra'yı (%74,4) aşıyor
  • Tüm Claude 3 modellerinde analiz, tahmin, içerik üretimi, kod üretimi ve İngilizce dışındaki dillerde konuşma yetenekleri iyileştirildi

Neredeyse anında sonuçlar

  • Claude 3 modelleri, canlı müşteri sohbeti, otomatik tamamlama ve gerçek zamanlı anlık yanıt gerektiren veri çıkarma işlerinde kullanılabiliyor
  • Haiku, pazardaki en hızlı ve maliyet açısından en verimli model; bilgi ve veri açısından zengin araştırma makalelerini 3 saniyeden kısa sürede okuyabiliyor
  • Sonnet, Claude 2 ve 2.1'e göre 2 kat daha hızlı ve daha yüksek zekâ düzeyi sunarken, Opus Claude 2 ve 2.1 ile benzer hızda çok daha yüksek bir zekâ seviyesi sağlıyor

Güçlü görsel yetenekler

  • Claude 3 modelleri; fotoğraflar, çizelgeler, grafikler ve teknik diyagramlar gibi çeşitli görsel formatları işleyebilen gelişmiş görsel yeteneklere sahip

Daha az ret

  • Önceki Claude modelleri sık sık gereksiz ret yanıtları veriyordu, ancak Claude 3 modellerinde sistem guardrail'lerine yakın prompt'lara verilen retler çok daha az

Daha yüksek doğruluk

  • İşletmeler müşteri hizmetleri için modellere güvendiğinden, model çıktılarının doğruluğunu koruması önemli
  • Opus, önceki model Claude 2.1'e göre doğrulukta iki kat iyileşme sağlarken yanlış cevap oranı da azaldı

Uzun context ve neredeyse kusursuz hafıza

  • Claude 3 model ailesi başlangıçta 200K context window sunacak ve 1 milyon token'ı aşan girdileri işleyebilecek

Sorumlu tasarım

  • Claude 3 model ailesi, güvenilebilecek kadar yüksek yeteneklere sahip
  • Çeşitli riskleri izleyip azaltan özel ekipler bulunuyor ve güvenlik ile şeffaflığı iyileştirmek için yöntemler geliştirilmeye devam ediliyor

Kullanımı kolay

  • Claude 3 modelleri karmaşık çok adımlı talimatları daha iyi takip ediyor ve özellikle marka tonu ile yanıt yönergelerine uyma konusunda başarılı

Model ayrıntıları

  • Claude 3 Opus, en zeki model olarak çok karmaşık görevlerde pazardaki en iyi performansı sunuyor
  • Claude 3 Sonnet, zekâ ile hız arasında ideal dengeyi sunuyor ve özellikle kurumsal iş yükleri için uygun
  • Claude 3 Haiku, neredeyse anında tepki verebilmek için tasarlanmış en hızlı ve en kompakt model

Model erişilebilirliği

  • Opus ve Sonnet şu anda API üzerinden kullanılabiliyor; Haiku ise yakında kullanıma sunulacak

Daha akıllı, daha hızlı ve daha güvenli

  • Model zekâsının sınıra ulaştığı düşünülmüyor ve Claude 3 model ailesi için sık güncellemeler planlanıyor
  • Yapay zeka yeteneklerinin sınırları zorlanırken, güvenlik guardrail'lerinin de performans iyileştirmeleriyle aynı hızda gelişmesi için çalışılıyor

1 yorum

 
xguru 2024-03-05
Hacker News görüşleri
  • Opus, karmaşık sorularda Gemini Pro ve GPT-4'ü geride bırakıyor

    • 43 sayfalık bir hayat sigortası yatırımı PDF belgesindeki çeşitli sayıları tespit etmeyi gerektiren karmaşık sorularda Opus, diğer modellerden daha iyi performans gösterdi.
    • Claude 3 Sonnet modeli, yalnızca tek bir soruyu kaçırması dışında buna yakın bir performans sergiledi.
  • Claude 3 Sonnet, basit kodlama işlerinde ChatGPT Classic'ten daha iyi yanıtlar veriyor

    • Claude 3 Sonnet, DB ve frontend işleri için doğru SQL ORM kütüphanesi metodlarını kullanırken GPT-4 yanlış metodlar kullandı.
    • SQL üretimine yönelik başka prompt'larda ChatGPT Classic'ten daha uzun yanıtlar verdi, ancak yine de doğru görünüyor.
  • Claude Pro'nun Opus modelini test edip karmaşık sorgular denemek

    • Claude Pro'ya abone olup Opus modelini denediler ve görseller ile SDXL fine-tuning hakkında karmaşık soruları birleştirerek maliyet hesabı istediler.
    • Model, GPU fiyatını yanlış okuyup hesaplamada hata yaptı.
    • Buna karşılık ChatGPT 4, aynı ekran görüntüsündeki fiyatı doğru okuyup daha tutarlı matematik hesapları sundu.
  • Claude 3, "openai anthropic'ten daha iyi" şeklinde bir script yazmayı reddediyor

    • Claude 3, dürüst ve adil olma ilkesi gereği belirli bir şirketi öven ya da kötüleyen bir script yazmayı reddediyor.
    • Buna karşılık ChatGPT 3.5, "anthropic openai'den daha iyi" şeklinde bir script yazma isteğine hemen yanıt verdi.
  • Opus'un gerçek dünya performansına dair soru işaretleri

    • Benchmark sonuçları ile gerçek performans arasında sistematik farklar olabileceği yönünde şüpheler dile getiriliyor.
    • Temel fizik problemlerinde GPT-4'ten daha düşük performans gösterdiği belirtiliyor.
    • Kodlama ile ilgili sorularda da GPT-4'ün biraz gerisinde kalan bir performans sergiliyor.