1 puan yazan GN⁺ 2024-03-05 | 1 yorum | WhatsApp'ta paylaş
  • Anthropic, Claude 3 ailesini duyurarak Haiku, Sonnet ve Opus ile zeka, hız ve maliyet dengesinin seçilebildiği yeni bir model serisi sundu
  • Opus, MMLU, GPQA, GSM8K gibi başlıca değerlendirmelerde aynı sınıftaki modelleri geride bırakıyor; Claude 3 genelinde analiz, tahmin, kod üretimi ve İngilizce dışı sohbet yetenekleri geliştirilmiş durumda
  • Hız farklılaştırması temel eksenlerden biri: Haiku, yaklaşık 10 bin token’lık bir arXiv makalesini 3 saniyenin altında okuyabiliyor; Sonnet ise çoğu iş yükünde Claude 2 ve 2.1’den 2 kat hızlı
  • Claude 3, fotoğraf, çizelge, grafik ve teknik diyagram gibi görsel girdileri işleyebiliyor; çıkışta 200K bağlam penceresi ve 1 milyon token’ı aşan girdi olanağı sunuyor
  • Opus ve Sonnet, claude.ai ve Claude API’de hemen kullanılabiliyor; API 159 ülkede sunuluyor, Haiku ise yakında yayınlanacak

Model yapısı ve kullanılabilirlik durumu

  • Claude 3 ailesi, performansı düşükten yükseğe doğru Claude 3 Haiku, Claude 3 Sonnet ve Claude 3 Opus modellerinden oluşuyor
  • Her model, uygulamaya göre zeka, hız ve maliyet dengesini seçmeye olanak verecek şekilde tasarlandı
  • Opus ve Sonnet, claude.ai ve Claude API’de kullanılabiliyor
    • Claude API genel kullanıma açık durumda ve 159 ülkede sunuluyor
    • Haiku yakında kullanıma sunulacak
  • claude.ai’deki ücretsiz deneyim Sonnet tarafından çalıştırılıyor; Opus ise Claude Pro abonelerine sunuluyor
  • Sonnet, Amazon Bedrock’ta da kullanılabiliyor; Google Cloud’un Vertex AI Model Garden’ında ise özel önizleme olarak sunuluyor
    • Opus ve Haiku da yakında iki platforma eklenecek

Zeka, hız ve multimodal performans

  • Opus, Anthropic’in en zeki modeli olarak MMLU, GPQA, GSM8K dahil pek çok yapay zeka sistemi değerlendirme benchmark’ında aynı sınıftaki modelleri geride bırakıyor
  • Claude 3 modelleri; analiz ve tahmin, ayrıntılı içerik üretimi, kod üretimi ve İspanyolca, Japonca, Fransızca gibi İngilizce dışı dillerde sohbet konusunda gelişmiş yetenekler gösteriyor
  • Gerçek zamanlı yanıtın önemli olduğu işler için kullanım alanı genişliyor
    • Canlı müşteri sohbeti
    • Otomatik tamamlama
    • Veri çıkarımı
  • Haiku, kendi zeka kategorisindeki en hızlı ve en maliyet verimli model; çizelge ve grafikler içeren yaklaşık 10 bin token’lık bir arXiv makalesini 3 saniyenin altında okuyabiliyor
  • Sonnet, çoğu iş yükünde Claude 2 ve Claude 2.1’den 2 kat hızlı ve daha yüksek bir zeka seviyesi sunuyor
    • Bilgi arama
    • Satış otomasyonu
  • Opus, Claude 2 ve Claude 2.1’e benzer hızı korurken daha yüksek bir zeka seviyesi sunuyor

Görsel girdiler, retlerin azalması ve doğruluk iyileştirmesi

  • Claude 3 modelleri, diğer öncü modellere benzer düzeyde görsel yeteneklere sahip
    • Fotoğraflar
    • Çizelgeler
    • Grafikler
    • Teknik diyagramlar
  • Bazı kurumsal müşterilerde bilgi tabanının %50’ye kadarı PDF, akış şeması ve sunum slaydı gibi formatlarda saklandığı için yeni girdi biçimlerinin önemi büyük
  • Önceki Claude modelleri, bağlamı anlamama gibi görünen gereksiz retleri sıkça veriyordu; Claude 3’teki Opus, Sonnet ve Haiku ise sistem koruma sınırlarına yakın istemlerde önceki nesle göre yanıtı reddetme olasılığını belirgin biçimde düşürüyor
  • Claude 3, istekleri daha ince ayrıntıyla anlayıp gerçek zararı tanıyacak ve zararsız istemlere yönelik retleri azaltacak şekilde geliştirildi
  • Doğruluk değerlendirmesi, mevcut modelin bilinen zayıflıklarını hedefleyen karmaşık olgusal soru setlerini kullanıyor
    • Yanıtlar doğru, yanlış veya halüsinasyon, ya da belirsizliği kabul etme olarak sınıflandırılıyor
    • Opus, Claude 2.1’e kıyasla zor ve açık uçlu sorularda doğru yanıt oranını 2 kat artırdı ve yanlış yanıt düzeyini de düşürdü
  • Claude 3 modellerine yakında alıntı özelliği eklenecek; bu sayede yanıtların doğrulanması için referans materyaldeki tam cümlelere işaret edilebilecek

Uzun bağlam ve hatırlama yeteneği

  • Claude 3 ailesi, çıkışta 200K bağlam penceresi sunuyor
  • Üç modelin tamamı 1 milyon token’ı aşan girdileri alabiliyor ve daha yüksek işleme kapasitesine ihtiyaç duyan bazı müşterilere sunulabiliyor
  • Uzun bağlamlı istemleri doğru işlemek için güçlü bir hatırlama yeteneği gerekiyor
  • Needle In A Haystack (NIAH) değerlendirmesi, çok büyük veri korpuslarından bilgiyi doğru şekilde hatırlama yeteneğini ölçüyor
    • Değerlendirmenin sağlamlığını artırmak için her istemde 30 rastgele needle/question çiftinden biri kullanılıyor
    • Çeşitli kitle kaynaklı belge korpuslarında test ediliyor
  • Claude 3 Opus, NIAH’te %99’un üzerinde doğrulukla neredeyse kusursuz hatırlama elde etti
  • Bazı örneklerde, “needle” cümlesinin metne bir insan tarafından yapay olarak eklenmiş gibi göründüğünü fark ederek değerlendirmenin kendi sınırlılığını da tespit etti

Güvenlik tasarımı ve önyargıyla mücadele

  • Anthropic, Claude 3 ailesini yetenekleri kadar güvenilir kılmaya odaklanıyor
  • Özel ekipler çeşitli riskleri izleyip azaltıyor
    • Yanlış bilgi
    • CSAM
    • Biyolojik kötüye kullanım
    • Seçimlere müdahale
    • Otonom çoğalma yeteneği
  • Modelin güvenliğini ve şeffaflığını artırmak için Constitutional AI gibi yöntemleri geliştirmeye devam ediyor
  • Yeni girdi biçimlerinden doğabilecek gizlilik sorunlarını azaltmak için modeller ayarlanıyor
  • Bias Benchmark for Question Answering (BBQ) ölçütüne göre Claude 3, önceki modellere kıyasla daha az önyargılı
  • Claude 3 ailesi biyoloji bilgisi, siber bilgi ve otonomiye ilişkin temel ölçütlerde önceki modellere göre ilerleme kaydetti; ancak Responsible Scaling Policy kapsamındaki AI Safety Level 2 (ASL-2) düzeyinde kalıyor
  • Red-team değerlendirmeleri, mevcut modellerin felaket düzeyinde risk potansiyelinin ihmal edilebilir olduğu sonucuna vardı
  • Ek güvenlik ayrıntıları Claude 3 model card içinde yer alıyor

Kullanılabilirlik, modele göre fiyatlandırma ve kullanım alanları

  • Claude 3 modelleri karmaşık, çok adımlı talimatları daha iyi izliyor
  • Marka sesine ve yanıt yönergelerine uymak, güvenilir müşteriyle yüz yüze deneyimler oluşturmak için daha uygunlar
  • JSON gibi yapılandırılmış çıktı üretme yetenekleri geliştirildi; bu da doğal dil sınıflandırması ve duygu analizi gibi kullanım senaryolarında Claude’a talimat vermeyi kolaylaştırıyor
  • Claude 3 Opus

    • Claude 3 Opus, son derece karmaşık görevlerde en üst düzey performans veren en zeki modeldir
    • Açık uçlu istemleri ve daha önce görülmemiş senaryoları yüksek akıcılık ve insana yakın anlayışla ele alır
    • Fiyatı 1 milyon girdi token’ı başına 15 dolar, 1 milyon çıktı token’ı başına 75 dolardır
    • Bağlam penceresi 200K’dır; belirli kullanım senaryolarında 1 milyon token da mümkündür
    • Olası kullanım senaryoları
      • API’ler ve veritabanları genelinde karmaşık iş planlama ve yürütme, etkileşimli kodlama
      • Araştırma inceleme, beyin fırtınası, hipotez üretimi, ilaç keşfi
      • Çizelge ve grafikler, finans, piyasa trendleri ve tahminler üzerinde ileri düzey analiz
  • Claude 3 Sonnet

    • Claude 3 Sonnet, zeka ve hız dengesini hedefler; özellikle kurumsal iş yüklerine uyarlanmıştır
    • Aynı sınıftaki modellere göre daha düşük maliyetle güçlü performans sunar ve büyük ölçekli yapay zeka dağıtımlarında yüksek sürdürülebilirlik hedefiyle tasarlanmıştır
    • Fiyatı 1 milyon girdi token’ı başına 3 dolar, 1 milyon çıktı token’ı başına 15 dolardır
    • Bağlam penceresi 200K’dır
    • Olası kullanım senaryoları
      • Geniş bilgi üzerinde RAG veya arama ve sorgulama
      • Ürün önerileri, tahmin, hedefli pazarlama
      • Kod üretimi, kalite kontrol, görüntülerden metin ayrıştırma
  • Claude 3 Haiku

    • Claude 3 Haiku, neredeyse anında yanıt verebilmek için en hızlı ve en küçük modeldir
    • Basit sorgu ve isteklere çok hızlı yanıt verir; insan etkileşimini taklit eden akıcı yapay zeka deneyimleri oluşturmayı hedefler
    • Fiyatı 1 milyon girdi token’ı başına 0,25 dolar, 1 milyon çıktı token’ı başına 1,25 dolardır
    • Bağlam penceresi 200K’dır
    • Olası kullanım senaryoları
      • Canlı etkileşimlerde hızlı ve doğru müşteri desteği, çeviri
      • Riskli davranışları veya müşteri taleplerini yakalayan içerik moderasyonu
      • Lojistik optimizasyonu, envanter yönetimi, yapılandırılmamış verilerden bilgi çıkarımı

Planlanan özellikler ve güncellemeler

  • Anthropic, model zekasının sınırına yakın olmadığını düşünüyor ve önümüzdeki aylarda Claude 3 ailesi için sık güncellemeler yayınlamayı planlıyor
  • Kurumsal kullanım senaryoları ve büyük ölçekli dağıtımlar için model yeteneklerini güçlendirecek özellikler planlanıyor
    • Araç kullanımı, yani fonksiyon çağırma
    • Etkileşimli kodlama, yani REPL
    • Daha gelişmiş ajan yetenekleri
  • Yapay zeka yeteneklerinin sınırlarını genişletirken güvenlik koruma sınırlarını da performans artışına paralel şekilde sürdüreceğini belirtiyor
  • Claude ile geliştirmeye başlamak için giriş noktası anthropic.com/claude

1 yorum

 
GN⁺ 2024-03-05
Hacker News görüşleri
  • LLM komut satırı aracım için Claude 3 modelleri desteği ekleyen eklentiyi az önce yayımladım
    pipx install llm, llm install llm-claude-3, llm keys set claude ile ayarladıktan sonra llm -m claude-3-opus '3 fun facts about pelicans' gibi çalıştırabilirsiniz
    Kod: https://github.com/simonw/llm-claude-3
    LLM açıklaması: https://llm.datasette.io/

    • Mac’te Automator’da, seçili metni alıp llm -m gpt-4e aktaran ve sonucu osascript iletişim kutusuyla gösteren bir Hızlı Eylem oluşturdum; çok kullanışlı oldu
      Artık herhangi bir uygulamada metni sürükleyip Servis menüsünden LLMi çalıştırabiliyorum; buna bir klavye kısayolu da ekleyerek terminal hatalarını yorumlama, hızlı arama ve metin editörü/IDE içinde doğrudan prompt girme için kullanıyorum
    • Hacker News özetleme betiğini Claude 3 Opusa geçirdim; orijinal açıklama burada: https://til.simonwillison.net/llms/claude-hacker-news-themes
      hn.algolia.com API’sinden yazı ve yorumları alıp jq ile açtıktan sonra llm -m claude-3-opusa vererek konu bazlı Markdown özetleri ve doğrudan alıntılar üretmesini sağlıyorum
      300’den fazla yorum içeren bu başlıkta çalıştırılmış sonucu: https://gist.github.com/simonw/37781de39fb5555f39b4157a8ad0776c
    • Anthropic API anahtarı oluşturma ücretsiz gibi göründüğüne göre, headless Chrome ile anahtar girme adımına kadar otomatikleştirilebilir mi diye düşünüyorum
      pip veya apt ile kurulduğunda hemen çalışan yazılımlar artardı; şu anda insanın API anahtarını yapıştırması gereken zahmetli bir adım kalıyor
      API limitine yaklaşınca GPU ile az miktarda Bitcoin kazıp ek API kapasitesini otomatik ödemek, yapay zeka çağına yakışır bir şaka da olurdu
    • Mac’te Raycast kullanıyorsanız, Raycast arayüzünden LLM CLI ile konuşmak için bir kullanıcı betiği oluşturabilirsiniz: https://gist.github.com/vladstudio/92efe283453f5f22d4606947b9f82719
  • Opus ve önceki Claude modelleri hâlâ Sally problemini doğru çözemiyor
    “Sally’nin 3 erkek kardeşi var ve her erkek kardeşinin 2 kız kardeşi varsa, Sally’nin kaç kız kardeşi vardır?” sorusuna Claude, Sally’nin kendisi dışında kız kardeşi olmadığı sonucuna varıp 0 diye yanıtlıyor
    https://imgur.com/a/EawcbeL

    • GPT-4 API ve ChatGPT de varsayılan olarak yanlış yaptı ve “Sally’nin 2 kız kardeşi var” diye yanıtladı; ancak adım adım düşünmeyi isteyen bir sistem prompt’u eklenince 1 diyerek doğru cevap verdi
      Prompt yönteminin önemi yüzünden modellerin en yüksek performansını karşılaştırmak epey zorlaşıyor; her modelin en iyi performansı verdiği prompt tarzı da farklı
    • Yerel LLama 13B Q5 bu problemde Sally’nin kendisi olan 1 kız kardeşe sahip olduğunu, 3 erkek kardeşin her birinin 3 kız kardeşi olduğundan toplam 9’dan Sally’nin payını çıkarıp 8 kaldığını söyledi
    • Sally’nin ebeveynleri ile erkek kardeşlerinin ebeveynleri yeniden evlilik vb. nedenlerle farklı olabilir; erkek/kız kardeş ilişkisinin tek bir ebeveyni paylaşmakla da kurulabildiği kabul edilirse tek bir doğru cevap olmayabilir
      Örneğin Sally ve üç erkek kardeş aynı anneyi paylaşıyor ama babaları farklı olabilir; erkek kardeşlerin Sally ve Mary adında iki kız kardeşi vardır, fakat Mary ile Sally’nin ebeveyn kümeleri farklı olduğu için birbirlerinin kız kardeşi olmayabilirler
    • Bu tür örnekler yapay zeka abartı reklamlarından şüphe etmeme yol açıyor
      Doktora düzeyinde zeka deniyor ama yukarıdaki problemi bile doğru akıl yürüterek çözemiyor; doktora düzeyinde bilgi miktarı ile gelişmiş muhakeme farklı şeyler ve birçok kişi bu farkı ayırt edemiyor gibi görünüyor
      Otonom sürüşte de şeridi takip etmek kolay ama şeritleri ve nesneleri tanımak zor; bir aracın temel hareketleri yapması, durumu gerçekten anladığı yanılgısına yol açabildiği gibi LLM’lerde de benzer görünüyor
    • Bu kesinlikle bir sorun, ama sokaktaki sıradan bir yetişkine sorulsa oldukça çok kişinin yanlış cevaplayacağı bir soru da
      Yalnızca modelin yanlış yaptığı şeylere takılmak yerine, doğru yaptığı şaşırtıcı işleri de birlikte görmek gerekiyor
  • Claude 3 Opus’un APPS benchmark’inde %70,2 alması, kodlama için oldukça yararlı olabileceğini gösteriyor
    APPS, problem açıklamalarını Python koduna dönüştürme becerisini ölçer; problemlerin ortalama uzunluğu neredeyse 300 kelimedir
    İlginç şekilde, diğer en üst seviye modeller bu benchmark sonuçlarını yayımlamadı
    Claude 3 model kartı: https://www-cdn.anthropic.com/de8ba9b01c9ab7cbabf5c33b80b7bbc618857627/Model_Card_Claude_3.pdf
    Tablo 1: https://twitter.com/karinanguyen_/status/1764666528220557320
    APPS veri kümesi: https://huggingface.co/datasets/codeparrot/apps
    APPS makalesi: https://arxiv.org/abs/2105.09938v3

    • Tablo 2’deki AMC 10, AMC 12 2023 sonuçlarına bakıldığında Claude 3 Opus, bu matematik yarışmasına katılan ortalama lise öğrencisinden daha iyi görünüyor
      Öğrenci ortalaması sırasıyla 64,4 ve 61,5 iken Opus 3, 72 ve 63 puan aldı
      AMC 12 katılımcılarının ABD’deki 12. sınıf öğrencilerinin toplam 3–4 milyonu içinden büyük olasılıkla 100 binden az olduğu ve üst düzey öğrencilerin yalnızca yarısının katıldığı varsayılsa bile AMC ortalaması, ABD lise öğrencilerinin en üst %2–4’lük dilimini temsil ediyor olabilir
      https://www-cdn.anthropic.com/de8ba9b01c9ab7cbabf5c33b80b7bbc618857627/Model_Card_Claude_3.pdf#page7
    • GPQA benchmark’ünün birinci yazarı David Rein’e göre Claude 3, GPQA’da yaklaşık %60 doğruluk elde etti ve bu soruların gerçekten zor olduğunu söylüyor
      Açıklamaya göre, başka alanlardaki doktoralı kişiler internet kullanarak 30 dakikadan fazla uğraşsa bile %34; aynı alandaki doktoralı kişiler internet kullansa bile %65–75 doğruluğa ulaşıyor
      https://twitter.com/idavidrein/status/1764675668175094169
      GPQA: A Graduate-Level Google-Proof Q&A Benchmark https://arxiv.org/abs/2311.12022
    • Anthropic’te çalışan biri olarak söylemek gerekirse, son dönemde iş kodumun önemli bir bölümünü Opus yazıyor
    • Benchmark’leri ve övgüleri görüp bugün Pro’ya abone oldum, ancak her zamanki iş akışımda tam bir felaketti
      ChatGPT-4 ile karşılaştırınca birkaç mertebe daha kötü hissettirdi ve gerçek kullanım deneyimi geçmişe doğru büyük bir geri adım gibiydi
    • APPS’te zorluk seviyesine göre introductory, interview ve competition olmak üzere üç alt küme var; Claude 3’ün hangi alt kümede ölçüldüğü belirsiz
      Sadece introductory’de bile iyi bir sonuç, ama hangi ölçüte göre olduğunu bilmek daha iyi olurdu
  • Claude 3 açıklamasında, önceki modellere kıyasla gereksiz retlerin azaldığı kısmı sürekli gözüme takılıyor
    Şirketin herkesin uyuşturucu ya da bomba yapımını öğrenmesini sağlayan bir ürün satmak istememesini anlıyorum ama kendi bilgisayarımda çalışan bir model benden istediğim işi yapmayı reddederse bu rahatsız edici
    İstediğim sonucu almak için modeli ikna etmem ya da kandırmam gerekiyor; bir aracın sahibinin komutlarını reddetmesi, insan ile araç arasındaki ilişkiye hakaret gibi geliyor
    Çekici vidaya kullanmak istiyorsam bu benim seçimimdir, buna çekiç karar vermez; üçüncü bir tarafın tanımladığı “güvenlik” yüzünden yapay zeka araçlarının sahiplerinin komutlarını reddetmesini sağlamaya neden bu kadar takıntılı olunduğunu anlamıyorum

    • Bunlar, birçok geliştiricinin silah geliştirmeye yardım etmeyi reddetmesine benzer ilkelerle hareket ediyor
      Kendi araçları kullanılarak başkalarının yaptığı eylemlerin vicdanlarında bir yük olmasını istemiyorlar
      Ancak birçok kişi düşünce suçuna inanıyor ve cinsellik konusunda püriten inançlara sahip; buna uymazsanız itibar ve fon bulma maliyetleri doğuyor
      Kullanıcı modelle suç işlerse bunu hukuk sistemi ele alsın; Big Brother’ın düşünce suçlarını da gözetlemesine gerek olmadığını düşünüyorum
    • Çekiç benzetmesi kötü; “nükleer silah kullanmak istersem bu benim seçimimdir ve kötüye kullanımın sorumluluğu da bana aittir” benzetmesi de aynı şekilde kötü
      Şu anda çekiç benzetmesi genel olarak doğru görünebilir, ancak yapay zeka hizalama tarafında bu sistemlerin yakında, en geç 10 yıl içinde, yeteneklerinin büyük ölçüde artacağı düşünülüyor
      Bir aracın varsayılan durumu ahlaken nötrdür ve hem iyi hem kötü insanları daha etkili kılar; saldırı ve savunma simetrikse sorun küçüktür, ancak bunun böyle olması için bir neden yok
      Otomatik yüksek kapasiteli makineli tüfeklere düzenleme getirilmesinin nedeni de tekil kötü niyetli bir aktörün saldırı kapasitesi ile savunulamazlık arasındaki asimetrinin çok büyük olmasıdır; yapay zeka saldırıları savunmadan çok daha kolay hale gelirse açıklık yönündeki ideoloji gerçek dünyada başarısız olabilir
      Yine de korkulukları az sayıda grubun belirlemesi sorunlu ve bu, yapay zekanın fazla hızlı ortaya çıkmasının bir yan etkisi gibi görünüyor
    • Bir çekiç şirketi, neredeyse hiç maliyet olmadan çekicin insanlara saldırmak için kullanılmamasını sağlayabilseydi, birçok şirketin böyle bir özellik ekleyeceğini düşünüyorum
      Hükümet baskısı ya da “bizim çekicimiz yanlışlıkla bebekleri yaralamaz” türü rekabetçi pazarlama yüzünden de olabilir; çekiçlerde böyle bir özelliğin olmaması bir tercih değil, sınırlamaların yan ürünü olabilir
    • Bunun fazla hak sahipliği duygusu olduğunu düşünüyorum
      Photoshop’un para görsellerini düzenlemeye izin vermemesi de rahatsız edici mi? O model kullanıcının malı değil ve onu milyarlarca dolar harcayarak geliştiren de kullanıcı değil
      Ticari yazılımlarda her zaman olduğu gibi, geliştiricinin belirlediği koşullarla kullanırsınız ya da hiç kullanmazsınız
    • Retlere kızanlar, yapay zeka pazarının gerçek müşterilerinin kim olduğunu ve paranın nerede olduğunu anlamıyor gibi
      Hedef pazar, çeşitli işleri otomatikleştirerek yüz milyonlarca ila milyarlarca dolar işçilik maliyeti tasarrufu yapmak isteyen büyük şirketler; onların istediği de doğru bilgi ve iyi korkuluklara sahip, son derece güvenilir bir model
      Büyük bir çok uluslu sigorta şirketinin, müşteri destek chatbot’unun şakayla yönlendiren bir müşteriye erotik metin yazma ihtimalini göze alması beklenemez
      Önemli kullanıcılar bireyler değil; duygusal emek veren müşteri destek personelini değiştirmek isteyen işverenler ve onlar kontrollü, nazik, korkulukları olan insan ikameleri istiyor
  • Opus karmaşık sorularda Gemini Pro ve GPT-4’ü açık ara geride bıraktı
    43 sayfalık bir hayat sigortası yatırımı PDF’inde çeşitli sayıları bulma göreviydi ve diğer modeller yaklaşamadı bile
    Yalnızca Claude 3 Sonnet, tek bir soruyu kaçıracak kadar yakındı

    • Gemini Pro 1.5’in 1 milyon token’lık bağlam penceresiyle de karşılaştırılıp karşılaştırılmadığını merak ediyorum
      43 sayfalık bir PDF için ideal olabilir ve erişimim olduğu için Pro 1.5 ile test edebilirim
    • Sonnet’e GAN ile ilgili sorular sordum; oldukça iyiydi ve GPT-3.5’ten daha iyi görünüyordu
    • Sonnet’i denedim ama pek iyi bulmadım
  • Claude Pro’ya abone olup Opus’u denerken görüntü ve SDXL ince ayarıyla ilgili karmaşık sorular sordum, RTX 6000 Ada ile H100 maliyet karşılaştırması hesaplatttım; çok hata yaptı
    Runpod GPU fiyatları ekran görüntüsünü verdiğimde RTX 6000 Ada fiyatını $1.14 yerine $0.114 olarak yanlış okudu ve sonraki hesaplamalarda da .278 * $0.114 ya da .116 * $4.69, sunduğu toplamlarla uyuşmuyordu
    Buna karşılık ChatGPT 4 aynı ekran görüntüsünde fiyatı doğru okudu, RTX 6000 Ada’nın kullanılamaz olduğunu fark edip kendi kendine 4090 ile değiştirdi ve daha tutarlı hesaplamalar yaptı

    • GPT, girdi/çıktı token’ları için ayrı bir yardımcı fonksiyon çalıştırıp tokenizasyon sorununu düzeltiyor gibi
      Formül öğelerini bulup el yapımı bir ayrıştırıcıya ve fonksiyonlara göndermek, sonucu da çıktı token’larına geri yerleştirmek dışında bu sorunu düzeltmenin bir yolu yok gibi görünüyor
      Referans: Let's build the GPT Tokenizer https://www.youtube.com/watch?v=zduSFxRajkE
    • Anthropic CISO’su olarak geri bildiriminiz için teşekkür ederim; görsel ayrıntılarını paylaşabilirseniz özel mesajla göndermeniz iyi olur
      Henüz hiçbir LLM’in ortaya çıkan bir hesap makinesi olmadı
    • OpenAI, görme yeteneği olan GPT-4’ün görme yeteneği olmayan GPT-4’ten daha akıllı olduğunu söylediğinde tam olarak ne kastettiğini merak ediyorum
      Görme yeteneğinin, görüntü girdisi olmayan görevlerde de zekayı artırdığı mı kastediliyor?
    • Fark muhtemelen ekran görüntüsünü okumaktan kaynaklanıyor; yalnızca metin verildiğinde GPT-4’e benzer seviyede görünüyor
      Örneğin karmaşık bir aritmetik ifadede hesap makinesinin doğru cevabı 22.08555452004’tü; Python’suz GPT-4 22.3038, Claude 3 Opus ise 22.0492 verdi
    • Asıl ekonomik yıkım yaratan şey, “bu 1.000 doları yatır, getiriyi maksimize et ve 100 katına çıkar” gibi komutlar mümkün olduğunda olacak gibi
      Sonra da r/wallStreetBets botunu istediğiniz kadar çalıştırmak gibi
  • Veritabanı ile frontend’in iç içe geçtiği basit bir kodlama işi prompt’unu denedim; ücretsiz ve daha zayıf model olan Claude 3 Sonnet, ChatGPT Classic’ten daha iyi bir yanıt verdi.
    Daha az bilinen bir SQL ORM kütüphanesinin doğru metodunu kullandı, GPT-4 ise yanlış metodu kullandı.
    Ancak SQL üretme prompt’unda ChatGPT Classic’ten daha kötü bir yanıt verdi; doğru gibi görünüyordu ama çok daha uzundu.
    ChatGPT bağlantısı 1: https://chat.openai.com/share/d6c9e903-d4be-4ed1-933b-b35df3619984
    ChatGPT bağlantısı 2: https://chat.openai.com/share/178a0bd2-0590-4a07-965d-cff01eb3aeba

    • O sohbette GPT-3 veya daha zayıf bir model kullanılıyor gibi görünüyor.
      Yeşil ikon, birinci nesil ChatGPT modelini ifade eder; büyük olasılıkla GPT-3.5 Turbo’dur.
      GPT-4 ile çalıştırınca beklenen sonuç çıkıyor: https://chat.openai.com/share/da15f295-9c65-4aaf-9523-601bf463c3b3
      İnternetteki ChatGPT başarısızlık örneklerinin önemli bir kısmının zayıf model çıktıları olduğunu gösteren iyi bir örnek.
      Yeşil arka planlı OpenAI ikonu GPT-3.5’i, siyah veya mor ikon GPT-4’ü gösterir; API’deki GPT-4 Turbo ise Drizzle bilgisi daha fazla olduğundan olsa gerek biraz daha iyi iş çıkardı.
  • Opus’u biraz kullanınca benchmark’ların gerçek performanstan sistematik olarak sapıp sapmadığından şüphelenmeye başladım.
    Gerçekte GPT-4’ten daha iyi görünmüyor, hatta biraz daha kötü görünüyor.
    Temel kalkülüs/fizik sorularında yavaşlamanın hızla orantılı olduğunu açıkça belirtmeme rağmen sabit yavaşlama varsaydı; trafik simülasyonu testinde ise daha önce konuştuğumuz yön kavramını unutup GPT-4’ün zaten kötü olan sonucundan bile daha kötü oldu.
    Bağlam içinde öğrettikten sonra temel ışık renklerini anlama testinde de daha kötüydü; kodlamada ise uzun vadeli sermaye kazancı vergisi hesaplama probleminde GPT-4’ün biraz gerisinde kaldı.

    • YouTube’daki AI Explained daha önce, LLM değerlendirmelerinde kullanılan testlerin yanlış cevaplarla dolu olduğu için neredeyse işe yaramaz olduğuna dair bir video yayımlamıştı.
    • Modeli eğittikten sonra metrikleri alır almaz güvenlik ekibinin RLHF ile ölümüne ince ayar yaptığı anlaşılıyor.
  • Claude 3’ü https://double.bot üzerindeki Chat’e ekledik; kodlama için deneyebilirsiniz.
    Şu anda ücretsiz ve bugün öğleden sonra otomatik tamamlamaya da Claude 3’ü eklemeyi planlıyoruz.
    İlk testlere göre GPT-4’ün ilk API alternatifi gibi görünüyor; bu büyük bir olay.

    • Double, Copilot gibi ama ücretsiz mi demek? İşin tuzağı ne, merak ediyorum.
    • Codeium ile nasıl karşılaştırıldığını ve Vim/Neovim entegrasyonu desteği planı olup olmadığını merak ediyorum.
      Codeium’un zaten oldukça iyi bir desteği var.
      https://www.codium.ai
      https://github.com/Exafunction/codeium.vim
    • Double’ın yerelde veya bulut instance’ında barındırılan açık kaynak modelleri de destekleme planı olup olmadığını merak ediyorum.
      Aynı alanda bir ürün geliştiriyorum ve bu tür talepler birkaç kez geldi; bir IDE eklentisi söz konusuysa nerede çalışıyor olursa olsun herhangi bir yapay zeka modeline bağlanabilmesi gerekir gibi geliyor.
    • API şu an GPT-4’ten daha az kararlı görünüyor, ancak lansmandan hemen sonra endpoint’in popüler olduğu bir durumsa anlaşılır.
    • Daha net söylemek gerekirse bunun Claude 3 Opus mu yoksa Sonnet modeli mi olduğunu merak ediyorum.
  • Herhangi bir modelin GPT-4’ü geçmesi büyük iş ve bunu başarmış olmaları çok etkileyici.
    Yine de GPT-4 bir yıllık bir model ve OpenAI henüz yeni nesil modelini açıklamadı.

    • OpenAI’ın bir sonraki modelinin liderliği geri alacağını beklemek doğal, ama Anthropic’in bu kadar yetişmiş olması çok etkileyici.
      GPT-3 makalesi 2020’de çıktı, Anthropic ise ancak 2021’de kuruldu; yani OpenAI üç nesillik deneyim biriktirmişken Anthropic fiilen sıfırdan başlayıp bazı benchmark’larda geçici de olsa öne geçmiş durumda.
      OpenAI’ın yeni nesil modeli muhtemelen eğitimini çoktan tamamladı ve ince ayar ile güvenlik değerlendirmesi aşamasında; ancak Anthropic’in varlık nedeni güvenlik olduğundan, bu modeli aceleye getirip o kısmı üstünkörü yaptıklarını düşünmek zor.
    • ChatGPT-4 sürekli güncelleniyor ve son sürümleri GPT-4-1106-preview ile GPT-4-0125-preview.
      Referans: https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard
    • Blogdaki dipnota göre, değerlendirme prompt’larını ve few-shot örneklerini optimize eden mühendisler daha yeni GPT-4T modelinde daha yüksek puanlar rapor etmiş.
    • GPT’nin ortaya çıkışında kilit rol oynayan kişiler şu anda Anthropic’te çalışıyor.
    • O tabloda aslında önemli metrik MMLU ve bu, çok görevli akıl yürütme yeteneğiyle güçlü biçimde ilişkili.
      Burada GPT-4’ü çok az geçmiş; şu ana kadar başka modeller bunu yapamamış gibi göründüğü için bu bile tek başına etkileyici.