Claude 3 Model Ailesi

(anthropic.com)

1 puan yazan GN⁺ 2024-03-05 | 1 yorum | WhatsApp'ta paylaş

Anthropic, Claude 3 ailesini duyurarak Haiku, Sonnet ve Opus ile zeka, hız ve maliyet dengesinin seçilebildiği yeni bir model serisi sundu
Opus, MMLU, GPQA, GSM8K gibi başlıca değerlendirmelerde aynı sınıftaki modelleri geride bırakıyor; Claude 3 genelinde analiz, tahmin, kod üretimi ve İngilizce dışı sohbet yetenekleri geliştirilmiş durumda
Hız farklılaştırması temel eksenlerden biri: Haiku, yaklaşık 10 bin token’lık bir arXiv makalesini 3 saniyenin altında okuyabiliyor; Sonnet ise çoğu iş yükünde Claude 2 ve 2.1’den 2 kat hızlı
Claude 3, fotoğraf, çizelge, grafik ve teknik diyagram gibi görsel girdileri işleyebiliyor; çıkışta 200K bağlam penceresi ve 1 milyon token’ı aşan girdi olanağı sunuyor
Opus ve Sonnet, claude.ai ve Claude API’de hemen kullanılabiliyor; API 159 ülkede sunuluyor, Haiku ise yakında yayınlanacak

Model yapısı ve kullanılabilirlik durumu

Claude 3 ailesi, performansı düşükten yükseğe doğru Claude 3 Haiku, Claude 3 Sonnet ve Claude 3 Opus modellerinden oluşuyor
Her model, uygulamaya göre zeka, hız ve maliyet dengesini seçmeye olanak verecek şekilde tasarlandı
Opus ve Sonnet, claude.ai ve Claude API’de kullanılabiliyor
- Claude API genel kullanıma açık durumda ve 159 ülkede sunuluyor
- Haiku yakında kullanıma sunulacak
claude.ai’deki ücretsiz deneyim Sonnet tarafından çalıştırılıyor; Opus ise Claude Pro abonelerine sunuluyor
Sonnet, Amazon Bedrock’ta da kullanılabiliyor; Google Cloud’un Vertex AI Model Garden’ında ise özel önizleme olarak sunuluyor
- Opus ve Haiku da yakında iki platforma eklenecek

Zeka, hız ve multimodal performans

Opus, Anthropic’in en zeki modeli olarak MMLU, GPQA, GSM8K dahil pek çok yapay zeka sistemi değerlendirme benchmark’ında aynı sınıftaki modelleri geride bırakıyor
Claude 3 modelleri; analiz ve tahmin, ayrıntılı içerik üretimi, kod üretimi ve İspanyolca, Japonca, Fransızca gibi İngilizce dışı dillerde sohbet konusunda gelişmiş yetenekler gösteriyor
Gerçek zamanlı yanıtın önemli olduğu işler için kullanım alanı genişliyor
- Canlı müşteri sohbeti
- Otomatik tamamlama
- Veri çıkarımı
Haiku, kendi zeka kategorisindeki en hızlı ve en maliyet verimli model; çizelge ve grafikler içeren yaklaşık 10 bin token’lık bir arXiv makalesini 3 saniyenin altında okuyabiliyor
Sonnet, çoğu iş yükünde Claude 2 ve Claude 2.1’den 2 kat hızlı ve daha yüksek bir zeka seviyesi sunuyor
- Bilgi arama
- Satış otomasyonu
Opus, Claude 2 ve Claude 2.1’e benzer hızı korurken daha yüksek bir zeka seviyesi sunuyor

Görsel girdiler, retlerin azalması ve doğruluk iyileştirmesi

Claude 3 modelleri, diğer öncü modellere benzer düzeyde görsel yeteneklere sahip
- Fotoğraflar
- Çizelgeler
- Grafikler
- Teknik diyagramlar
Bazı kurumsal müşterilerde bilgi tabanının %50’ye kadarı PDF, akış şeması ve sunum slaydı gibi formatlarda saklandığı için yeni girdi biçimlerinin önemi büyük
Önceki Claude modelleri, bağlamı anlamama gibi görünen gereksiz retleri sıkça veriyordu; Claude 3’teki Opus, Sonnet ve Haiku ise sistem koruma sınırlarına yakın istemlerde önceki nesle göre yanıtı reddetme olasılığını belirgin biçimde düşürüyor
Claude 3, istekleri daha ince ayrıntıyla anlayıp gerçek zararı tanıyacak ve zararsız istemlere yönelik retleri azaltacak şekilde geliştirildi
Doğruluk değerlendirmesi, mevcut modelin bilinen zayıflıklarını hedefleyen karmaşık olgusal soru setlerini kullanıyor
- Yanıtlar doğru, yanlış veya halüsinasyon, ya da belirsizliği kabul etme olarak sınıflandırılıyor
- Opus, Claude 2.1’e kıyasla zor ve açık uçlu sorularda doğru yanıt oranını 2 kat artırdı ve yanlış yanıt düzeyini de düşürdü
Claude 3 modellerine yakında alıntı özelliği eklenecek; bu sayede yanıtların doğrulanması için referans materyaldeki tam cümlelere işaret edilebilecek

Uzun bağlam ve hatırlama yeteneği

Claude 3 ailesi, çıkışta 200K bağlam penceresi sunuyor
Üç modelin tamamı 1 milyon token’ı aşan girdileri alabiliyor ve daha yüksek işleme kapasitesine ihtiyaç duyan bazı müşterilere sunulabiliyor
Uzun bağlamlı istemleri doğru işlemek için güçlü bir hatırlama yeteneği gerekiyor
Needle In A Haystack (NIAH) değerlendirmesi, çok büyük veri korpuslarından bilgiyi doğru şekilde hatırlama yeteneğini ölçüyor
- Değerlendirmenin sağlamlığını artırmak için her istemde 30 rastgele needle/question çiftinden biri kullanılıyor
- Çeşitli kitle kaynaklı belge korpuslarında test ediliyor
Claude 3 Opus, NIAH’te %99’un üzerinde doğrulukla neredeyse kusursuz hatırlama elde etti
Bazı örneklerde, “needle” cümlesinin metne bir insan tarafından yapay olarak eklenmiş gibi göründüğünü fark ederek değerlendirmenin kendi sınırlılığını da tespit etti

Güvenlik tasarımı ve önyargıyla mücadele

Anthropic, Claude 3 ailesini yetenekleri kadar güvenilir kılmaya odaklanıyor
Özel ekipler çeşitli riskleri izleyip azaltıyor
- Yanlış bilgi
- CSAM
- Biyolojik kötüye kullanım
- Seçimlere müdahale
- Otonom çoğalma yeteneği
Modelin güvenliğini ve şeffaflığını artırmak için Constitutional AI gibi yöntemleri geliştirmeye devam ediyor
Yeni girdi biçimlerinden doğabilecek gizlilik sorunlarını azaltmak için modeller ayarlanıyor
Bias Benchmark for Question Answering (BBQ) ölçütüne göre Claude 3, önceki modellere kıyasla daha az önyargılı
Claude 3 ailesi biyoloji bilgisi, siber bilgi ve otonomiye ilişkin temel ölçütlerde önceki modellere göre ilerleme kaydetti; ancak Responsible Scaling Policy kapsamındaki AI Safety Level 2 (ASL-2) düzeyinde kalıyor
Red-team değerlendirmeleri, mevcut modellerin felaket düzeyinde risk potansiyelinin ihmal edilebilir olduğu sonucuna vardı
- Değerlendirmeler White House commitments ve 2023 US Executive Order ile uyumlu şekilde yürütüldü
- Gelecekteki modellerin ASL-3 eşiklerine ne kadar yaklaştığı izlenmeye devam edecek
Ek güvenlik ayrıntıları Claude 3 model card içinde yer alıyor

Kullanılabilirlik, modele göre fiyatlandırma ve kullanım alanları

Claude 3 modelleri karmaşık, çok adımlı talimatları daha iyi izliyor
Marka sesine ve yanıt yönergelerine uymak, güvenilir müşteriyle yüz yüze deneyimler oluşturmak için daha uygunlar
JSON gibi yapılandırılmış çıktı üretme yetenekleri geliştirildi; bu da doğal dil sınıflandırması ve duygu analizi gibi kullanım senaryolarında Claude’a talimat vermeyi kolaylaştırıyor
Claude 3 Opus
- Claude 3 Opus, son derece karmaşık görevlerde en üst düzey performans veren en zeki modeldir
- Açık uçlu istemleri ve daha önce görülmemiş senaryoları yüksek akıcılık ve insana yakın anlayışla ele alır
- Fiyatı 1 milyon girdi token’ı başına 15 dolar, 1 milyon çıktı token’ı başına 75 dolardır
- Bağlam penceresi 200K’dır; belirli kullanım senaryolarında 1 milyon token da mümkündür
- Olası kullanım senaryoları
  - API’ler ve veritabanları genelinde karmaşık iş planlama ve yürütme, etkileşimli kodlama
  - Araştırma inceleme, beyin fırtınası, hipotez üretimi, ilaç keşfi
  - Çizelge ve grafikler, finans, piyasa trendleri ve tahminler üzerinde ileri düzey analiz
Claude 3 Sonnet
- Claude 3 Sonnet, zeka ve hız dengesini hedefler; özellikle kurumsal iş yüklerine uyarlanmıştır
- Aynı sınıftaki modellere göre daha düşük maliyetle güçlü performans sunar ve büyük ölçekli yapay zeka dağıtımlarında yüksek sürdürülebilirlik hedefiyle tasarlanmıştır
- Fiyatı 1 milyon girdi token’ı başına 3 dolar, 1 milyon çıktı token’ı başına 15 dolardır
- Bağlam penceresi 200K’dır
- Olası kullanım senaryoları
  - Geniş bilgi üzerinde RAG veya arama ve sorgulama
  - Ürün önerileri, tahmin, hedefli pazarlama
  - Kod üretimi, kalite kontrol, görüntülerden metin ayrıştırma
Claude 3 Haiku
- Claude 3 Haiku, neredeyse anında yanıt verebilmek için en hızlı ve en küçük modeldir
- Basit sorgu ve isteklere çok hızlı yanıt verir; insan etkileşimini taklit eden akıcı yapay zeka deneyimleri oluşturmayı hedefler
- Fiyatı 1 milyon girdi token’ı başına 0,25 dolar, 1 milyon çıktı token’ı başına 1,25 dolardır
- Bağlam penceresi 200K’dır
- Olası kullanım senaryoları
  - Canlı etkileşimlerde hızlı ve doğru müşteri desteği, çeviri
  - Riskli davranışları veya müşteri taleplerini yakalayan içerik moderasyonu
  - Lojistik optimizasyonu, envanter yönetimi, yapılandırılmamış verilerden bilgi çıkarımı

Planlanan özellikler ve güncellemeler

Anthropic, model zekasının sınırına yakın olmadığını düşünüyor ve önümüzdeki aylarda Claude 3 ailesi için sık güncellemeler yayınlamayı planlıyor
Kurumsal kullanım senaryoları ve büyük ölçekli dağıtımlar için model yeteneklerini güçlendirecek özellikler planlanıyor
- Araç kullanımı, yani fonksiyon çağırma
- Etkileşimli kodlama, yani REPL
- Daha gelişmiş ajan yetenekleri
Yapay zeka yeteneklerinin sınırlarını genişletirken güvenlik koruma sınırlarını da performans artışına paralel şekilde sürdüreceğini belirtiyor
Claude ile geliştirmeye başlamak için giriş noktası anthropic.com/claude

1 yorum

GN⁺ 2024-03-05

Hacker News görüşleri

LLM komut satırı aracım için Claude 3 modelleri desteği ekleyen eklentiyi az önce yayımladım
pipx install llm, llm install llm-claude-3, llm keys set claude ile ayarladıktan sonra llm -m claude-3-opus '3 fun facts about pelicans' gibi çalıştırabilirsiniz
Kod: https://github.com/simonw/llm-claude-3
LLM açıklaması: https://llm.datasette.io/
- Mac’te Automator’da, seçili metni alıp llm -m gpt-4e aktaran ve sonucu osascript iletişim kutusuyla gösteren bir Hızlı Eylem oluşturdum; çok kullanışlı oldu
  Artık herhangi bir uygulamada metni sürükleyip Servis menüsünden LLMi çalıştırabiliyorum; buna bir klavye kısayolu da ekleyerek terminal hatalarını yorumlama, hızlı arama ve metin editörü/IDE içinde doğrudan prompt girme için kullanıyorum
- Hacker News özetleme betiğini Claude 3 Opusa geçirdim; orijinal açıklama burada: https://til.simonwillison.net/llms/claude-hacker-news-themes
  hn.algolia.com API’sinden yazı ve yorumları alıp jq ile açtıktan sonra llm -m claude-3-opusa vererek konu bazlı Markdown özetleri ve doğrudan alıntılar üretmesini sağlıyorum
  300’den fazla yorum içeren bu başlıkta çalıştırılmış sonucu: https://gist.github.com/simonw/37781de39fb5555f39b4157a8ad0776c
- Anthropic API anahtarı oluşturma ücretsiz gibi göründüğüne göre, headless Chrome ile anahtar girme adımına kadar otomatikleştirilebilir mi diye düşünüyorum
  pip veya apt ile kurulduğunda hemen çalışan yazılımlar artardı; şu anda insanın API anahtarını yapıştırması gereken zahmetli bir adım kalıyor
  API limitine yaklaşınca GPU ile az miktarda Bitcoin kazıp ek API kapasitesini otomatik ödemek, yapay zeka çağına yakışır bir şaka da olurdu
- Mac’te Raycast kullanıyorsanız, Raycast arayüzünden LLM CLI ile konuşmak için bir kullanıcı betiği oluşturabilirsiniz: https://gist.github.com/vladstudio/92efe283453f5f22d4606947b9f82719
Opus ve önceki Claude modelleri hâlâ Sally problemini doğru çözemiyor
“Sally’nin 3 erkek kardeşi var ve her erkek kardeşinin 2 kız kardeşi varsa, Sally’nin kaç kız kardeşi vardır?” sorusuna Claude, Sally’nin kendisi dışında kız kardeşi olmadığı sonucuna varıp 0 diye yanıtlıyor
https://imgur.com/a/EawcbeL
- GPT-4 API ve ChatGPT de varsayılan olarak yanlış yaptı ve “Sally’nin 2 kız kardeşi var” diye yanıtladı; ancak adım adım düşünmeyi isteyen bir sistem prompt’u eklenince 1 diyerek doğru cevap verdi
  Prompt yönteminin önemi yüzünden modellerin en yüksek performansını karşılaştırmak epey zorlaşıyor; her modelin en iyi performansı verdiği prompt tarzı da farklı
- Yerel LLama 13B Q5 bu problemde Sally’nin kendisi olan 1 kız kardeşe sahip olduğunu, 3 erkek kardeşin her birinin 3 kız kardeşi olduğundan toplam 9’dan Sally’nin payını çıkarıp 8 kaldığını söyledi
- Sally’nin ebeveynleri ile erkek kardeşlerinin ebeveynleri yeniden evlilik vb. nedenlerle farklı olabilir; erkek/kız kardeş ilişkisinin tek bir ebeveyni paylaşmakla da kurulabildiği kabul edilirse tek bir doğru cevap olmayabilir
  Örneğin Sally ve üç erkek kardeş aynı anneyi paylaşıyor ama babaları farklı olabilir; erkek kardeşlerin Sally ve Mary adında iki kız kardeşi vardır, fakat Mary ile Sally’nin ebeveyn kümeleri farklı olduğu için birbirlerinin kız kardeşi olmayabilirler
- Bu tür örnekler yapay zeka abartı reklamlarından şüphe etmeme yol açıyor
  Doktora düzeyinde zeka deniyor ama yukarıdaki problemi bile doğru akıl yürüterek çözemiyor; doktora düzeyinde bilgi miktarı ile gelişmiş muhakeme farklı şeyler ve birçok kişi bu farkı ayırt edemiyor gibi görünüyor
  Otonom sürüşte de şeridi takip etmek kolay ama şeritleri ve nesneleri tanımak zor; bir aracın temel hareketleri yapması, durumu gerçekten anladığı yanılgısına yol açabildiği gibi LLM’lerde de benzer görünüyor
- Bu kesinlikle bir sorun, ama sokaktaki sıradan bir yetişkine sorulsa oldukça çok kişinin yanlış cevaplayacağı bir soru da
  Yalnızca modelin yanlış yaptığı şeylere takılmak yerine, doğru yaptığı şaşırtıcı işleri de birlikte görmek gerekiyor
Claude 3 Opus’un APPS benchmark’inde %70,2 alması, kodlama için oldukça yararlı olabileceğini gösteriyor
APPS, problem açıklamalarını Python koduna dönüştürme becerisini ölçer; problemlerin ortalama uzunluğu neredeyse 300 kelimedir
İlginç şekilde, diğer en üst seviye modeller bu benchmark sonuçlarını yayımlamadı
Claude 3 model kartı: https://www-cdn.anthropic.com/de8ba9b01c9ab7cbabf5c33b80b7bbc618857627/Model_Card_Claude_3.pdf
Tablo 1: https://twitter.com/karinanguyen_/status/1764666528220557320
APPS veri kümesi: https://huggingface.co/datasets/codeparrot/apps
APPS makalesi: https://arxiv.org/abs/2105.09938v3
- Tablo 2’deki AMC 10, AMC 12 2023 sonuçlarına bakıldığında Claude 3 Opus, bu matematik yarışmasına katılan ortalama lise öğrencisinden daha iyi görünüyor
  Öğrenci ortalaması sırasıyla 64,4 ve 61,5 iken Opus 3, 72 ve 63 puan aldı
  AMC 12 katılımcılarının ABD’deki 12. sınıf öğrencilerinin toplam 3–4 milyonu içinden büyük olasılıkla 100 binden az olduğu ve üst düzey öğrencilerin yalnızca yarısının katıldığı varsayılsa bile AMC ortalaması, ABD lise öğrencilerinin en üst %2–4’lük dilimini temsil ediyor olabilir
  https://www-cdn.anthropic.com/de8ba9b01c9ab7cbabf5c33b80b7bbc618857627/Model_Card_Claude_3.pdf#page7
- GPQA benchmark’ünün birinci yazarı David Rein’e göre Claude 3, GPQA’da yaklaşık %60 doğruluk elde etti ve bu soruların gerçekten zor olduğunu söylüyor
  Açıklamaya göre, başka alanlardaki doktoralı kişiler internet kullanarak 30 dakikadan fazla uğraşsa bile %34; aynı alandaki doktoralı kişiler internet kullansa bile %65–75 doğruluğa ulaşıyor
  https://twitter.com/idavidrein/status/1764675668175094169
  GPQA: A Graduate-Level Google-Proof Q&A Benchmark https://arxiv.org/abs/2311.12022
- Anthropic’te çalışan biri olarak söylemek gerekirse, son dönemde iş kodumun önemli bir bölümünü Opus yazıyor
- Benchmark’leri ve övgüleri görüp bugün Pro’ya abone oldum, ancak her zamanki iş akışımda tam bir felaketti
  ChatGPT-4 ile karşılaştırınca birkaç mertebe daha kötü hissettirdi ve gerçek kullanım deneyimi geçmişe doğru büyük bir geri adım gibiydi
- APPS’te zorluk seviyesine göre introductory, interview ve competition olmak üzere üç alt küme var; Claude 3’ün hangi alt kümede ölçüldüğü belirsiz
  Sadece introductory’de bile iyi bir sonuç, ama hangi ölçüte göre olduğunu bilmek daha iyi olurdu
Claude 3 açıklamasında, önceki modellere kıyasla gereksiz retlerin azaldığı kısmı sürekli gözüme takılıyor
Şirketin herkesin uyuşturucu ya da bomba yapımını öğrenmesini sağlayan bir ürün satmak istememesini anlıyorum ama kendi bilgisayarımda çalışan bir model benden istediğim işi yapmayı reddederse bu rahatsız edici
İstediğim sonucu almak için modeli ikna etmem ya da kandırmam gerekiyor; bir aracın sahibinin komutlarını reddetmesi, insan ile araç arasındaki ilişkiye hakaret gibi geliyor
Çekici vidaya kullanmak istiyorsam bu benim seçimimdir, buna çekiç karar vermez; üçüncü bir tarafın tanımladığı “güvenlik” yüzünden yapay zeka araçlarının sahiplerinin komutlarını reddetmesini sağlamaya neden bu kadar takıntılı olunduğunu anlamıyorum
- Bunlar, birçok geliştiricinin silah geliştirmeye yardım etmeyi reddetmesine benzer ilkelerle hareket ediyor
  Kendi araçları kullanılarak başkalarının yaptığı eylemlerin vicdanlarında bir yük olmasını istemiyorlar
  Ancak birçok kişi düşünce suçuna inanıyor ve cinsellik konusunda püriten inançlara sahip; buna uymazsanız itibar ve fon bulma maliyetleri doğuyor
  Kullanıcı modelle suç işlerse bunu hukuk sistemi ele alsın; Big Brother’ın düşünce suçlarını da gözetlemesine gerek olmadığını düşünüyorum
- Çekiç benzetmesi kötü; “nükleer silah kullanmak istersem bu benim seçimimdir ve kötüye kullanımın sorumluluğu da bana aittir” benzetmesi de aynı şekilde kötü
  Şu anda çekiç benzetmesi genel olarak doğru görünebilir, ancak yapay zeka hizalama tarafında bu sistemlerin yakında, en geç 10 yıl içinde, yeteneklerinin büyük ölçüde artacağı düşünülüyor
  Bir aracın varsayılan durumu ahlaken nötrdür ve hem iyi hem kötü insanları daha etkili kılar; saldırı ve savunma simetrikse sorun küçüktür, ancak bunun böyle olması için bir neden yok
  Otomatik yüksek kapasiteli makineli tüfeklere düzenleme getirilmesinin nedeni de tekil kötü niyetli bir aktörün saldırı kapasitesi ile savunulamazlık arasındaki asimetrinin çok büyük olmasıdır; yapay zeka saldırıları savunmadan çok daha kolay hale gelirse açıklık yönündeki ideoloji gerçek dünyada başarısız olabilir
  Yine de korkulukları az sayıda grubun belirlemesi sorunlu ve bu, yapay zekanın fazla hızlı ortaya çıkmasının bir yan etkisi gibi görünüyor
- Bir çekiç şirketi, neredeyse hiç maliyet olmadan çekicin insanlara saldırmak için kullanılmamasını sağlayabilseydi, birçok şirketin böyle bir özellik ekleyeceğini düşünüyorum
  Hükümet baskısı ya da “bizim çekicimiz yanlışlıkla bebekleri yaralamaz” türü rekabetçi pazarlama yüzünden de olabilir; çekiçlerde böyle bir özelliğin olmaması bir tercih değil, sınırlamaların yan ürünü olabilir
- Bunun fazla hak sahipliği duygusu olduğunu düşünüyorum
  Photoshop’un para görsellerini düzenlemeye izin vermemesi de rahatsız edici mi? O model kullanıcının malı değil ve onu milyarlarca dolar harcayarak geliştiren de kullanıcı değil
  Ticari yazılımlarda her zaman olduğu gibi, geliştiricinin belirlediği koşullarla kullanırsınız ya da hiç kullanmazsınız
- Retlere kızanlar, yapay zeka pazarının gerçek müşterilerinin kim olduğunu ve paranın nerede olduğunu anlamıyor gibi
  Hedef pazar, çeşitli işleri otomatikleştirerek yüz milyonlarca ila milyarlarca dolar işçilik maliyeti tasarrufu yapmak isteyen büyük şirketler; onların istediği de doğru bilgi ve iyi korkuluklara sahip, son derece güvenilir bir model
  Büyük bir çok uluslu sigorta şirketinin, müşteri destek chatbot’unun şakayla yönlendiren bir müşteriye erotik metin yazma ihtimalini göze alması beklenemez
  Önemli kullanıcılar bireyler değil; duygusal emek veren müşteri destek personelini değiştirmek isteyen işverenler ve onlar kontrollü, nazik, korkulukları olan insan ikameleri istiyor
Opus karmaşık sorularda Gemini Pro ve GPT-4’ü açık ara geride bıraktı
43 sayfalık bir hayat sigortası yatırımı PDF’inde çeşitli sayıları bulma göreviydi ve diğer modeller yaklaşamadı bile
Yalnızca Claude 3 Sonnet, tek bir soruyu kaçıracak kadar yakındı
- Gemini Pro 1.5’in 1 milyon token’lık bağlam penceresiyle de karşılaştırılıp karşılaştırılmadığını merak ediyorum
  43 sayfalık bir PDF için ideal olabilir ve erişimim olduğu için Pro 1.5 ile test edebilirim
- Sonnet’e GAN ile ilgili sorular sordum; oldukça iyiydi ve GPT-3.5’ten daha iyi görünüyordu
- Sonnet’i denedim ama pek iyi bulmadım
Claude Pro’ya abone olup Opus’u denerken görüntü ve SDXL ince ayarıyla ilgili karmaşık sorular sordum, RTX 6000 Ada ile H100 maliyet karşılaştırması hesaplatttım; çok hata yaptı
Runpod GPU fiyatları ekran görüntüsünü verdiğimde RTX 6000 Ada fiyatını $1.14 yerine $0.114 olarak yanlış okudu ve sonraki hesaplamalarda da .278 * $0.114 ya da .116 * $4.69, sunduğu toplamlarla uyuşmuyordu
Buna karşılık ChatGPT 4 aynı ekran görüntüsünde fiyatı doğru okudu, RTX 6000 Ada’nın kullanılamaz olduğunu fark edip kendi kendine 4090 ile değiştirdi ve daha tutarlı hesaplamalar yaptı
- GPT, girdi/çıktı token’ları için ayrı bir yardımcı fonksiyon çalıştırıp tokenizasyon sorununu düzeltiyor gibi
  Formül öğelerini bulup el yapımı bir ayrıştırıcıya ve fonksiyonlara göndermek, sonucu da çıktı token’larına geri yerleştirmek dışında bu sorunu düzeltmenin bir yolu yok gibi görünüyor
  Referans: Let's build the GPT Tokenizer https://www.youtube.com/watch?v=zduSFxRajkE
- Anthropic CISO’su olarak geri bildiriminiz için teşekkür ederim; görsel ayrıntılarını paylaşabilirseniz özel mesajla göndermeniz iyi olur
  Henüz hiçbir LLM’in ortaya çıkan bir hesap makinesi olmadı
- OpenAI, görme yeteneği olan GPT-4’ün görme yeteneği olmayan GPT-4’ten daha akıllı olduğunu söylediğinde tam olarak ne kastettiğini merak ediyorum
  Görme yeteneğinin, görüntü girdisi olmayan görevlerde de zekayı artırdığı mı kastediliyor?
- Fark muhtemelen ekran görüntüsünü okumaktan kaynaklanıyor; yalnızca metin verildiğinde GPT-4’e benzer seviyede görünüyor
  Örneğin karmaşık bir aritmetik ifadede hesap makinesinin doğru cevabı 22.08555452004’tü; Python’suz GPT-4 22.3038, Claude 3 Opus ise 22.0492 verdi
- Asıl ekonomik yıkım yaratan şey, “bu 1.000 doları yatır, getiriyi maksimize et ve 100 katına çıkar” gibi komutlar mümkün olduğunda olacak gibi
  Sonra da r/wallStreetBets botunu istediğiniz kadar çalıştırmak gibi
Veritabanı ile frontend’in iç içe geçtiği basit bir kodlama işi prompt’unu denedim; ücretsiz ve daha zayıf model olan Claude 3 Sonnet, ChatGPT Classic’ten daha iyi bir yanıt verdi.
Daha az bilinen bir SQL ORM kütüphanesinin doğru metodunu kullandı, GPT-4 ise yanlış metodu kullandı.
Ancak SQL üretme prompt’unda ChatGPT Classic’ten daha kötü bir yanıt verdi; doğru gibi görünüyordu ama çok daha uzundu.
ChatGPT bağlantısı 1: https://chat.openai.com/share/d6c9e903-d4be-4ed1-933b-b35df3619984
ChatGPT bağlantısı 2: https://chat.openai.com/share/178a0bd2-0590-4a07-965d-cff01eb3aeba
- O sohbette GPT-3 veya daha zayıf bir model kullanılıyor gibi görünüyor.
  Yeşil ikon, birinci nesil ChatGPT modelini ifade eder; büyük olasılıkla GPT-3.5 Turbo’dur.
  GPT-4 ile çalıştırınca beklenen sonuç çıkıyor: https://chat.openai.com/share/da15f295-9c65-4aaf-9523-601bf463c3b3
  İnternetteki ChatGPT başarısızlık örneklerinin önemli bir kısmının zayıf model çıktıları olduğunu gösteren iyi bir örnek.
  Yeşil arka planlı OpenAI ikonu GPT-3.5’i, siyah veya mor ikon GPT-4’ü gösterir; API’deki GPT-4 Turbo ise Drizzle bilgisi daha fazla olduğundan olsa gerek biraz daha iyi iş çıkardı.
Opus’u biraz kullanınca benchmark’ların gerçek performanstan sistematik olarak sapıp sapmadığından şüphelenmeye başladım.
Gerçekte GPT-4’ten daha iyi görünmüyor, hatta biraz daha kötü görünüyor.
Temel kalkülüs/fizik sorularında yavaşlamanın hızla orantılı olduğunu açıkça belirtmeme rağmen sabit yavaşlama varsaydı; trafik simülasyonu testinde ise daha önce konuştuğumuz yön kavramını unutup GPT-4’ün zaten kötü olan sonucundan bile daha kötü oldu.
Bağlam içinde öğrettikten sonra temel ışık renklerini anlama testinde de daha kötüydü; kodlamada ise uzun vadeli sermaye kazancı vergisi hesaplama probleminde GPT-4’ün biraz gerisinde kaldı.
- YouTube’daki AI Explained daha önce, LLM değerlendirmelerinde kullanılan testlerin yanlış cevaplarla dolu olduğu için neredeyse işe yaramaz olduğuna dair bir video yayımlamıştı.
- Modeli eğittikten sonra metrikleri alır almaz güvenlik ekibinin RLHF ile ölümüne ince ayar yaptığı anlaşılıyor.
Claude 3’ü https://double.bot üzerindeki Chat’e ekledik; kodlama için deneyebilirsiniz.
Şu anda ücretsiz ve bugün öğleden sonra otomatik tamamlamaya da Claude 3’ü eklemeyi planlıyoruz.
İlk testlere göre GPT-4’ün ilk API alternatifi gibi görünüyor; bu büyük bir olay.
- Double, Copilot gibi ama ücretsiz mi demek? İşin tuzağı ne, merak ediyorum.
- Codeium ile nasıl karşılaştırıldığını ve Vim/Neovim entegrasyonu desteği planı olup olmadığını merak ediyorum.
  Codeium’un zaten oldukça iyi bir desteği var.
  https://www.codium.ai
  https://github.com/Exafunction/codeium.vim
- Double’ın yerelde veya bulut instance’ında barındırılan açık kaynak modelleri de destekleme planı olup olmadığını merak ediyorum.
  Aynı alanda bir ürün geliştiriyorum ve bu tür talepler birkaç kez geldi; bir IDE eklentisi söz konusuysa nerede çalışıyor olursa olsun herhangi bir yapay zeka modeline bağlanabilmesi gerekir gibi geliyor.
- API şu an GPT-4’ten daha az kararlı görünüyor, ancak lansmandan hemen sonra endpoint’in popüler olduğu bir durumsa anlaşılır.
- Daha net söylemek gerekirse bunun Claude 3 Opus mu yoksa Sonnet modeli mi olduğunu merak ediyorum.
Herhangi bir modelin GPT-4’ü geçmesi büyük iş ve bunu başarmış olmaları çok etkileyici.
Yine de GPT-4 bir yıllık bir model ve OpenAI henüz yeni nesil modelini açıklamadı.
- OpenAI’ın bir sonraki modelinin liderliği geri alacağını beklemek doğal, ama Anthropic’in bu kadar yetişmiş olması çok etkileyici.
  GPT-3 makalesi 2020’de çıktı, Anthropic ise ancak 2021’de kuruldu; yani OpenAI üç nesillik deneyim biriktirmişken Anthropic fiilen sıfırdan başlayıp bazı benchmark’larda geçici de olsa öne geçmiş durumda.
  OpenAI’ın yeni nesil modeli muhtemelen eğitimini çoktan tamamladı ve ince ayar ile güvenlik değerlendirmesi aşamasında; ancak Anthropic’in varlık nedeni güvenlik olduğundan, bu modeli aceleye getirip o kısmı üstünkörü yaptıklarını düşünmek zor.
- ChatGPT-4 sürekli güncelleniyor ve son sürümleri GPT-4-1106-preview ile GPT-4-0125-preview.
  Referans: https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard
- Blogdaki dipnota göre, değerlendirme prompt’larını ve few-shot örneklerini optimize eden mühendisler daha yeni GPT-4T modelinde daha yüksek puanlar rapor etmiş.
- GPT’nin ortaya çıkışında kilit rol oynayan kişiler şu anda Anthropic’te çalışıyor.
- O tabloda aslında önemli metrik MMLU ve bu, çok görevli akıl yürütme yeteneğiyle güçlü biçimde ilişkili.
  Burada GPT-4’ü çok az geçmiş; şu ana kadar başka modeller bunu yapamamış gibi göründüğü için bu bile tek başına etkileyici.

Claude 3 Model Ailesi

Model yapısı ve kullanılabilirlik durumu

Zeka, hız ve multimodal performans

Görsel girdiler, retlerin azalması ve doğruluk iyileştirmesi

Uzun bağlam ve hatırlama yeteneği

Güvenlik tasarımı ve önyargıyla mücadele

Kullanılabilirlik, modele göre fiyatlandırma ve kullanım alanları

Claude 3 Opus

Claude 3 Sonnet

Claude 3 Haiku

Planlanan özellikler ve güncellemeler

İlgili okumalar

1 yorum

Hacker News görüşleri